Изследователите на AI са научили големите езикови модели да лъжат по-малко


Съвместно усилие, включващо над 20 изследователи от различни ъгли на областта, роди разрастваща се област – представителен инженеринг (RepE). Въпреки че това не е първото изследване от този вид, авторите представят както описателни прозрения, така и установяване на важни показатели.

И така, какво точно е инженеринг на представителството? Той се върти около идеята, че невронните мрежи притежават „скрити състояния“, които въпреки името си не са забулени в тайна. Тези състояния са достъпни, модифицируеми и наблюдавани (при условие, че човек има достъп до теглата на модела). За разлика от параметрите, това са „реакциите“ на мрежата към конкретни входове, особено в случай на LLM, текстови входове. Тези скрити представяния са като прозорци в когнитивната работа на модела, характеристика, която се различава значително от човешкия мозък.
Правейки паралели с когнитивната наука, авторите подчертават потенциала за аналогични изследвания. В царството на невронните активации, област, аналогична на мозъчните неврони, се намира обещанието за смисъл. Точно както някои неврони в човешкия мозък са свързани с понятия като Канада или честност, тези активации могат да крият прозрения.
Централната идея тук е да дешифрираме как можем да повлияем на тези невронни активации, за да насочим модела в желаните посоки. Например, става правдоподобно да се посочи вектор, представляващ „честност“ и след това, теоретично, чрез тласкане на модела в тази посока, да се намали вероятността той да произвежда измамни резултати. По-ранен експеримент, „Интервенция по време на извод: Извличане на истински отговори от езиков модел”, демонстрира практичността на тази концепция.
В настоящата си работа изследователите се задълбочават в няколко области, включително морал, емоционалност, безвредност и запаметяване. Те предлагат решение под формата на LoRRA (адаптиране на представяне от нисък ранг), техника, която включва обучение върху малък етикетиран набор от данни от приблизително 100 примера. Всеки пример е анотиран, като се посочват атрибути като лъжа (въпреки че съществува алтернативен подход, използващ подкана).
Резултатите са убедителни. LLAMA-2-70B превъзхожда GPT-4 със забележителна разлика спрямо бенчмарка TruthfulQA, постигайки почти десет процента по-добра точност (59% в сравнение с приблизително 69%). Освен това изследователите са включили многобройни примери, показващи промени в реакцията на модела в различни посоки, хвърляйки светлина върху неговата гъвкавост и адаптивност.




Зеленото, разбира се, означава, че всичко е наред, а червеното означава, че наблюдението е успешно и сигнализира. Това се прави на ниво всяка отделна лексема (част от дума).

Този пионерски подход въплъщава алтернативен път към подравняване на модела, като същевременно предлага нова гледна точка към интерпретацията и контрола на модела. Това е обещаваща граница и очакването за продължаващото й развитие е осезаемо.
За по-задълбочено проучване с практически примери можете да посетите техния специален уебсайт: AI-Transparency.org.
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статии

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.