Истраживачи вештачке интелигенције научили су велике језичке моделе да мање лажу
Заједнички напори који укључују преко 20 истраживача из различитих крајева изнедрили су домен у развоју – репрезентативни инжењеринг (РепЕ). Иако ово није прво истраживање те врсте, аутори представљају и дескриптивне увиде и успостављају кључне стандарде.
Дакле, шта је тачно репрезентативни инжењеринг? Она се врти око идеје да неуронске мреже поседују „скривена стања“, која, упркос свом имену, нису обавијена велом тајне. Ова стања су доступна, променљива и видљива (под условом да неко има приступ тежинама модела). За разлику од параметара, ово су „реакције“ мреже на одређене улазе, посебно у случају ЛЛМс, текстуални уноси. Ове скривене репрезентације су попут прозора у когнитивно функционисање модела, карактеристика која се јасно разликује од људског мозга.
Повлачећи паралеле са когнитивном науком, аутори истичу потенцијал за аналогна истраживања. У домену неуронских активација, домен аналоган неуронима мозга, налази се у обећању значења. Баш као што су одређени неурони у људском мозгу повезани са концептима као што су Канада или искреност, ове активације би могле да донесу увид.
Централна идеја овде је да дешифрујемо како можемо утицати на ове неуронске активације да усмеримо модел у жељеним правцима. На пример, постаје веродостојно одредити вектор који представља „поштење“, а затим, теоретски, гурањем модела у овом правцу, смањити вероватноћу да ће произвести обмањујући излаз. Ранији експеримент, „Интервенција у времену закључивања: извлачење истинитих одговора из језичког модела“, показао је практичност овог концепта.
У свом тренутном раду, истраживачи се баве неколико домена, укључујући моралност, емоционалност, безазленост и памћење. Они предлажу решење у облику ЛоРРА (Лов-Ранк Репресентатион Адаптатион), технике која укључује обуку на малом означеном скупу података од приближно 100 примера. Сваки пример је означен, указујући на атрибуте као што је лаж (иако постоји алтернативни приступ који користи промпт).
Резултати су убедљиви. LLAMA-2-70Б превазилази GPT-4 са значајном разликом у односу на ТрутхфулКА бенцхмарк, постижући скоро десет процената бољу прецизност (59% у поређењу са приближно 69%). Поред тога, истраживачи су укључили бројне примере који показују померање одговора модела у различитим правцима, бацајући светло на његову свестраност и прилагодљивост.
Овај пионирски приступ утјеловљује алтернативни пут ка усклађивању модела, док истовремено нуди нову перспективу на интерпретацију и контролу модела. То је обећавајућа граница, а очекивање за њен наставак еволуције је опипљиво.
За дубље истраживање са практичним примерима, можете посетити њихову наменску веб страницу: АИ-Транспаренци.орг.
Одрицање од одговорности
У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.
О аутору
Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.
više чланакаДамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.