Дослідники ШІ навчили великі мовні моделі менше брехати


Спільні зусилля за участю понад 20 дослідників з різних куточків області дали початок зростаючому домену – представницька техніка (RepE). Хоча це не перше дослідження такого роду, автори представляють як описові висновки, так і встановлюють важливі контрольні показники.

Отже, що ж таке інженерія представництва? Він обертається навколо ідеї, що нейронні мережі мають «приховані стани», які, незважаючи на свою назву, не оповиті таємницею. Ці стани є доступними, модифікованими та спостережуваними (за умови доступу до ваг моделі). На відміну від параметрів, це «реакція» мережі на конкретні вхідні дані, особливо у випадку LLM, текстові введення. Ці приховані уявлення схожі на вікна в когнітивну роботу моделі, особливість, яка значно відрізняється від людського мозку.
Проводячи паралелі з когнітивною наукою, автори підкреслюють потенціал для аналогічних досліджень. У царстві нейронних активацій, домені, аналогічному нейронам мозку, міститься обіцянка сенсу. Подібно до того, як певні нейрони в людському мозку пов’язані з такими поняттями, як Канада чи чесність, ці активації можуть приховувати ідеї.
Головна ідея тут полягає в тому, щоб розшифрувати, як ми можемо вплинути на ці нейронні активації, щоб спрямувати модель у бажаному напрямку. Наприклад, стає правдоподібним точно визначити вектор, що представляє «чесність», а потім, теоретично, підштовхнувши модель у цьому напрямку, зменшити ймовірність того, що вона створить оманливі результати. Попередній експеримент, "Втручання в час висновку: отримання правдивих відповідей з мовної моделі”, продемонстрував практичність цієї концепції.
У своїй поточній роботі дослідники заглиблюються в кілька сфер, включаючи мораль, емоційність, нешкідливість і запам'ятовування. Вони пропонують рішення у формі LoRRA (адаптації представлення низького рангу), методики, яка передбачає навчання на невеликому наборі даних із мітками приблизно 100 прикладів. Кожен приклад анотований із зазначенням таких атрибутів, як хибність (хоча існує альтернативний підхід із використанням підказки).
Результати переконливі. LLAMA-2-70B перевершує GPT-4 із значним відривом у тесті TruthfulQA, досягнувши майже на десять відсотків кращої точності (59% порівняно з приблизно 69%). Крім того, дослідники включили численні приклади, що демонструють зміни реакції моделі в різних напрямках, проливаючи світло на її універсальність і адаптивність.




Зелений, звичайно, означає, що все в порядку, а червоний означає, що моніторинг пройшов успішно і сигналізує. Це робиться на рівні кожної окремої лексеми (частини слова).

Цей новаторський підхід втілює альтернативний шлях до вирівнювання моделі, водночас пропонуючи новий погляд на інтерпретацію та контроль моделі. Це багатообіцяючий рубіж, і очікування його подальшої еволюції є відчутними.
Для глибшого дослідження з практичними прикладами ви можете відвідати їхній спеціальний веб-сайт: AI-Transparency.org.
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статті

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.