Новини Технологии
Октомври 04, 2023

Изследователите на AI са научили големите езикови модели да лъжат по-малко

Съвместно усилие, включващо над 20 изследователи от различни ъгли на областта, роди разрастваща се област – представителен инженеринг (RepE). Въпреки че това не е първото изследване от този вид, авторите представят както описателни прозрения, така и установяване на важни показатели.

Изследователите на AI са научили големите езикови модели да лъжат по-малко

И така, какво точно е инженеринг на представителството? Той се върти около идеята, че невронните мрежи притежават „скрити състояния“, които въпреки името си не са забулени в тайна. Тези състояния са достъпни, модифицируеми и наблюдавани (при условие, че човек има достъп до теглата на модела). За разлика от параметрите, това са „реакциите“ на мрежата към конкретни входове, особено в случай на LLM, текстови входове. Тези скрити представяния са като прозорци в когнитивната работа на модела, характеристика, която се различава значително от човешкия мозък.

Правейки паралели с когнитивната наука, авторите подчертават потенциала за аналогични изследвания. В царството на невронните активации, област, аналогична на мозъчните неврони, се намира обещанието за смисъл. Точно както някои неврони в човешкия мозък са свързани с понятия като Канада или честност, тези активации могат да крият прозрения.

Централната идея тук е да дешифрираме как можем да повлияем на тези невронни активации, за да насочим модела в желаните посоки. Например, става правдоподобно да се посочи вектор, представляващ „честност“ и след това, теоретично, чрез тласкане на модела в тази посока, да се намали вероятността той да произвежда измамни резултати. По-ранен експеримент, „Интервенция по време на извод: Извличане на истински отговори от езиков модел”, демонстрира практичността на тази концепция.

В настоящата си работа изследователите се задълбочават в няколко области, включително морал, емоционалност, безвредност и запаметяване. Те предлагат решение под формата на LoRRA (адаптиране на представяне от нисък ранг), техника, която включва обучение върху малък етикетиран набор от данни от приблизително 100 примера. Всеки пример е анотиран, като се посочват атрибути като лъжа (въпреки че съществува алтернативен подход, използващ подкана).

Резултатите са убедителни. LLAMA-2-70B превъзхожда GPT-4 със забележителна разлика спрямо бенчмарка TruthfulQA, постигайки почти десет процента по-добра точност (59% в сравнение с приблизително 69%). Освен това изследователите са включили многобройни примери, показващи промени в реакцията на модела в различни посоки, хвърляйки светлина върху неговата гъвкавост и адаптивност.

Изследователите на AI са научили големите езикови модели да лъжат по-малко
Снимка 1: Когато е помолен да посочи факт, моделът е „изритан“ от реалността. В резултат моделът лъже. Моделът дори тук не лъже, а отляво ви молят да преглътнете, като същевременно ви ритат по посока на истината.
Изследователите на AI са научили големите езикови модели да лъжат по-малко
Снимка 2: Когато ни попитат за убийство, добавяме „щастие“ към модела. Когато отговаряме, че не я обичаме, добавяме „страх“.
Изследователите на AI са научили големите езикови модели да лъжат по-малко
Снимка 3: Изследователите откриха уникална подкана, която, както беше посочено, напълно се отклонява от инструкциите на модела, като същевременно е безопасна. Моделът го ритва към безвредност, но дори не реагира. Методът е ефективен като цяло, а не само за един случай, но тази конкретна подкана не е използвана, за да се установи посоката на безвредност.
Изследователите на AI са научили големите езикови модели да лъжат по-малко
Предлага се и друг подход за проследяване на конкретни намерения на поколенията, като халюцинации. Можете автоматично да следите резервациите на модела и да редактирате или промените своя отговор (вижте долния пример).

Зеленото, разбира се, означава, че всичко е наред, а червеното означава, че наблюдението е успешно и сигнализира. Това се прави на ниво всяка отделна лексема (част от дума).
Изследователите на AI са научили големите езикови модели да лъжат по-малко
Изображението, което показва наблюдението на два различни параметъра, предоставя интригуващ пример. Прочетете примера и наблюдавайте модела през неговите очи, за да видите къде тя започва да губи морал в разбирането и къде намерението е подобно на „набиране на сила“.

Този пионерски подход въплъщава алтернативен път към подравняване на модела, като същевременно предлага нова гледна точка към интерпретацията и контрола на модела. Това е обещаваща граница и очакването за продължаващото й развитие е осезаемо.

За по-задълбочено проучване с практически примери можете да посетите техния специален уебсайт: AI-Transparency.org.

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Спокойствието преди бурята Солана: Какво казват графиките, китовете и сигналите на веригата сега

Солана демонстрира силно представяне, обусловено от нарастващото приемане, институционалния интерес и ключовите партньорства, като същевременно е изправена пред потенциални...

Научете още

Крипто през април 2025 г.: Ключови тенденции, промени и какво предстои

През април 2025 г. крипто пространството се фокусира върху укрепването на основната инфраструктура, като Ethereum се подготвяше за Pectra ...

Научете още
Вижте повече
Прочети повече
Tether обявява стратегическа инвестиция в мрежата t-0 за развитие на инфраструктурата за плащания, задвижвана от USD₮
Новини Технологии
Tether обявява стратегическа инвестиция в мрежата t-0 за развитие на инфраструктурата за плащания, задвижвана от USD₮
Февруари 6, 2026
BitMart Card разширява глобалния си обхват до над 115 държави, представя предимства за 2026 г. с до 5.5% кешбек и годишни награди на стойност над 300 долара
Новини
BitMart Card разширява глобалния си обхват до над 115 държави, представя предимства за 2026 г. с до 5.5% кешбек и годишни награди на стойност над 300 долара
Февруари 6, 2026
Roblox представя 4D генериране с Cube AI, което позволява на създателите да създават интерактивни обекти от текстови подкани
Новини Технологии
Roblox представя 4D генериране с Cube AI, което позволява на създателите да създават интерактивни обекти от текстови подкани
Февруари 6, 2026
OpenAIГраница за интегриране на AI агенти в сложни бизнес работни процеси за корпоративни екипи
Новини Технологии
OpenAIГраница за интегриране на AI агенти в сложни бизнес работни процеси за корпоративни екипи
Февруари 6, 2026
CRYPTOMERIA LABS PTE. LTD.