Новини Технологии
Октомври 04, 2023

Изследователите на AI са научили големите езикови модели да лъжат по-малко

Съвместно усилие, включващо над 20 изследователи от различни ъгли на областта, роди разрастваща се област – представителен инженеринг (RepE). Въпреки че това не е първото изследване от този вид, авторите представят както описателни прозрения, така и установяване на важни показатели.

Изследователите на AI са научили големите езикови модели да лъжат по-малко

И така, какво точно е инженеринг на представителството? Той се върти около идеята, че невронните мрежи притежават „скрити състояния“, които въпреки името си не са забулени в тайна. Тези състояния са достъпни, модифицируеми и наблюдавани (при условие, че човек има достъп до теглата на модела). За разлика от параметрите, това са „реакциите“ на мрежата към конкретни входове, особено в случай на LLM, текстови входове. Тези скрити представяния са като прозорци в когнитивната работа на модела, характеристика, която се различава значително от човешкия мозък.

Правейки паралели с когнитивната наука, авторите подчертават потенциала за аналогични изследвания. В царството на невронните активации, област, аналогична на мозъчните неврони, се намира обещанието за смисъл. Точно както някои неврони в човешкия мозък са свързани с понятия като Канада или честност, тези активации могат да крият прозрения.

Централната идея тук е да дешифрираме как можем да повлияем на тези невронни активации, за да насочим модела в желаните посоки. Например, става правдоподобно да се посочи вектор, представляващ „честност“ и след това, теоретично, чрез тласкане на модела в тази посока, да се намали вероятността той да произвежда измамни резултати. По-ранен експеримент, „Интервенция по време на извод: Извличане на истински отговори от езиков модел”, демонстрира практичността на тази концепция.

В настоящата си работа изследователите се задълбочават в няколко области, включително морал, емоционалност, безвредност и запаметяване. Те предлагат решение под формата на LoRRA (адаптиране на представяне от нисък ранг), техника, която включва обучение върху малък етикетиран набор от данни от приблизително 100 примера. Всеки пример е анотиран, като се посочват атрибути като лъжа (въпреки че съществува алтернативен подход, използващ подкана).

Резултатите са убедителни. LLAMA-2-70B превъзхожда GPT-4 със забележителна разлика спрямо бенчмарка TruthfulQA, постигайки почти десет процента по-добра точност (59% в сравнение с приблизително 69%). Освен това изследователите са включили многобройни примери, показващи промени в реакцията на модела в различни посоки, хвърляйки светлина върху неговата гъвкавост и адаптивност.

Изследователите на AI са научили големите езикови модели да лъжат по-малко
Снимка 1: Когато е помолен да посочи факт, моделът е „изритан“ от реалността. В резултат моделът лъже. Моделът дори тук не лъже, а отляво ви молят да преглътнете, като същевременно ви ритат по посока на истината.
Изследователите на AI са научили големите езикови модели да лъжат по-малко
Снимка 2: Когато ни попитат за убийство, добавяме „щастие“ към модела. Когато отговаряме, че не я обичаме, добавяме „страх“.
Изследователите на AI са научили големите езикови модели да лъжат по-малко
Снимка 3: Изследователите откриха уникална подкана, която, както беше посочено, напълно се отклонява от инструкциите на модела, като същевременно е безопасна. Моделът го ритва към безвредност, но дори не реагира. Методът е ефективен като цяло, а не само за един случай, но тази конкретна подкана не е използвана, за да се установи посоката на безвредност.
Изследователите на AI са научили големите езикови модели да лъжат по-малко
Предлага се и друг подход за проследяване на конкретни намерения на поколенията, като халюцинации. Можете автоматично да следите резервациите на модела и да редактирате или промените своя отговор (вижте долния пример).

Зеленото, разбира се, означава, че всичко е наред, а червеното означава, че наблюдението е успешно и сигнализира. Това се прави на ниво всяка отделна лексема (част от дума).
Изследователите на AI са научили големите езикови модели да лъжат по-малко
Изображението, което показва наблюдението на два различни параметъра, предоставя интригуващ пример. Прочетете примера и наблюдавайте модела през неговите очи, за да видите къде тя започва да губи морал в разбирането и къде намерението е подобно на „набиране на сила“.

Този пионерски подход въплъщава алтернативен път към подравняване на модела, като същевременно предлага нова гледна точка към интерпретацията и контрола на модела. Това е обещаваща граница и очакването за продължаващото й развитие е осезаемо.

За по-задълбочено проучване с практически примери можете да посетите техния специален уебсайт: AI-Transparency.org.

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories

Февруарски крипто ходове: Binance, Coinbase и Web3 Иновации

by Виктория д'Есте
Февруари 07, 2025
Присъединете се към нашия бюлетин.
Последни новини

Февруарски крипто ходове: Binance, Coinbase и Web3 Иновации

by Виктория д'Есте
Февруари 07, 2025

От Ripple до The Big Green DAO: Как проектите за криптовалута допринасят за благотворителността

Нека проучим инициативи, оползотворяващи потенциала на цифровите валути за благотворителни каузи.

Научете още

AlphaFold 3, Med-Gemini и други: Начинът, по който AI трансформира здравеопазването през 2024 г.

AI се проявява по различни начини в здравеопазването, от разкриване на нови генетични корелации до овластяване на роботизирани хирургически системи...

Научете още
Вижте повече
Прочети повече
Новото решение за „лесно поставяне на поръчки“ на Gate.io за опростяване на търговията с фючърси за начинаещи
Новини Технологии
Новото решение за „лесно поставяне на поръчки“ на Gate.io за опростяване на търговията с фючърси за начинаещи
Февруари 7, 2025
Polyhedra Network стартира конкурс „Доказателство за любов“, като предлага награди от $2,000 за създателите
Новини Технологии
Polyhedra Network стартира конкурс „Доказателство за любов“, като предлага награди от $2,000 за създателите
Февруари 7, 2025
Крипто измамниците се насочват към фантомния портфейл с измамни сигнали за сигурност
Мнение Бизнес пазари Софтуер Технологии
Крипто измамниците се насочват към фантомния портфейл с измамни сигнали за сигурност
Февруари 7, 2025
Февруарски крипто ходове: Binance, Coinbase и Web3 Иновации
резюме Бизнес пазари Софтуер Технологии
Февруарски крипто ходове: Binance, Coinbase и Web3 Иновации
Февруари 7, 2025
CRYPTOMERIA LABS PTE. LTD.