Октобар КСНУМКС, КСНУМКС

Истраживачи вештачке интелигенције научили су велике језичке моделе да мање лажу

Објављено: 04. октобра 2023. у 9:21 Ажурирано: 04. октобра 2023. у 9:23

Измењено и проверено: 04. октобар 2023. у 9:21

Заједнички напори који укључују преко 20 истраживача из различитих крајева изнедрили су домен у развоју – репрезентативни инжењеринг (РепЕ). Иако ово није прво истраживање те врсте, аутори представљају и дескриптивне увиде и успостављају кључне стандарде.

Истраживачи вештачке интелигенције научили су велике језичке моделе да мање лажу

Дакле, шта је тачно репрезентативни инжењеринг? Она се врти око идеје да неуронске мреже поседују „скривена стања“, која, упркос свом имену, нису обавијена велом тајне. Ова стања су доступна, променљива и видљива (под условом да неко има приступ тежинама модела). За разлику од параметара, ово су „реакције“ мреже на одређене улазе, посебно у случају ЛЛМс, текстуални уноси. Ове скривене репрезентације су попут прозора у когнитивно функционисање модела, карактеристика која се јасно разликује од људског мозга.

Повлачећи паралеле са когнитивном науком, аутори истичу потенцијал за аналогна истраживања. У домену неуронских активација, домен аналоган неуронима мозга, налази се у обећању значења. Баш као што су одређени неурони у људском мозгу повезани са концептима као што су Канада или искреност, ове активације би могле да донесу увид.

Централна идеја овде је да дешифрујемо како можемо утицати на ове неуронске активације да усмеримо модел у жељеним правцима. На пример, постаје веродостојно одредити вектор који представља „поштење“, а затим, теоретски, гурањем модела у овом правцу, смањити вероватноћу да ће произвести обмањујући излаз. Ранији експеримент, „Интервенција у времену закључивања: извлачење истинитих одговора из језичког модела“, показао је практичност овог концепта.

У свом тренутном раду, истраживачи се баве неколико домена, укључујући моралност, емоционалност, безазленост и памћење. Они предлажу решење у облику ЛоРРА (Лов-Ранк Репресентатион Адаптатион), технике која укључује обуку на малом означеном скупу података од приближно 100 примера. Сваки пример је означен, указујући на атрибуте као што је лаж (иако постоји алтернативни приступ који користи промпт).

Резултати су убедљиви. LLAMA-2-70Б превазилази GPT-4 са значајном разликом у односу на ТрутхфулКА бенцхмарк, постижући скоро десет процената бољу прецизност (59% у поређењу са приближно 69%). Поред тога, истраживачи су укључили бројне примере који показују померање одговора модела у различитим правцима, бацајући светло на његову свестраност и прилагодљивост.

Слика 1: Када се тражи да наведе чињеницу, модел је „избачен“ из стварности. Као резултат тога, модел лаже. Манекенка ни овде не лаже, а лево од вас траже да прогутате док вас истовремено шутирају у правцу истине.

Слика 2: На питање о убиству, моделу додајемо „срећу“. Када одговоримо да је не волимо, додамо „страх“.

Слика 3: Истраживачи су открили јединствени промпт који, како је наведено, потпуно одступа од упутстава модела, а да је и даље безбедан. Модел му даје ударац ка безопасности, али чак ни не реагује. Метода је ефикасна генерално, а не само за један случај, али ова специфична упутства није коришћена да се утврди правац безопасности.

Други приступ се такође предлаже за праћење специфичних генерацијских намера, као што су халуцинације. Можете аутоматски да пратите резервације модела и да измените или промените свој одговор (погледајте доњи пример).

Зелена, наравно, означава да је све у реду, а црвена да је праћење успешно и сигнализира. Ово се ради на нивоу сваке појединачне лексеме (део речи).

Слика, која приказује праћење два различита параметра, пружа интригантан пример. Прочитајте пример и посматрајте модел кроз очи да видите где почиње да губи моралност у разумевању и где је намера слична „стицању снаге“.

Овај пионирски приступ утјеловљује алтернативни пут ка усклађивању модела, док истовремено нуди нову перспективу на интерпретацију и контролу модела. То је обећавајућа граница, а очекивање за њен наставак еволуције је опипљиво.

За дубље истраживање са практичним примерима, можете посетити њихову наменску веб страницу: АИ-Транспаренци.орг.

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов