Звіт про новини Технологія
Жовтень 04, 2023

Дослідники ШІ навчили великі мовні моделі менше брехати

Спільні зусилля за участю понад 20 дослідників з різних куточків області дали початок зростаючому домену – представницька техніка (RepE). Хоча це не перше дослідження такого роду, автори представляють як описові висновки, так і встановлюють важливі контрольні показники.

Дослідники ШІ навчили великі мовні моделі менше брехати

Отже, що ж таке інженерія представництва? Він обертається навколо ідеї, що нейронні мережі мають «приховані стани», які, незважаючи на свою назву, не оповиті таємницею. Ці стани є доступними, модифікованими та спостережуваними (за умови доступу до ваг моделі). На відміну від параметрів, це «реакція» мережі на конкретні вхідні дані, особливо у випадку LLM, текстові введення. Ці приховані уявлення схожі на вікна в когнітивну роботу моделі, особливість, яка значно відрізняється від людського мозку.

Проводячи паралелі з когнітивною наукою, автори підкреслюють потенціал для аналогічних досліджень. У царстві нейронних активацій, домені, аналогічному нейронам мозку, міститься обіцянка сенсу. Подібно до того, як певні нейрони в людському мозку пов’язані з такими поняттями, як Канада чи чесність, ці активації можуть приховувати ідеї.

Головна ідея тут полягає в тому, щоб розшифрувати, як ми можемо вплинути на ці нейронні активації, щоб спрямувати модель у бажаному напрямку. Наприклад, стає правдоподібним точно визначити вектор, що представляє «чесність», а потім, теоретично, підштовхнувши модель у цьому напрямку, зменшити ймовірність того, що вона створить оманливі результати. Попередній експеримент, "Втручання в час висновку: отримання правдивих відповідей з мовної моделі”, продемонстрував практичність цієї концепції.

У своїй поточній роботі дослідники заглиблюються в кілька сфер, включаючи мораль, емоційність, нешкідливість і запам'ятовування. Вони пропонують рішення у формі LoRRA (адаптації представлення низького рангу), методики, яка передбачає навчання на невеликому наборі даних із мітками приблизно 100 прикладів. Кожен приклад анотований із зазначенням таких атрибутів, як хибність (хоча існує альтернативний підхід із використанням підказки).

Результати переконливі. LLAMA-2-70B перевершує GPT-4 із значним відривом у тесті TruthfulQA, досягнувши майже на десять відсотків кращої точності (59% порівняно з приблизно 69%). Крім того, дослідники включили численні приклади, що демонструють зміни реакції моделі в різних напрямках, проливаючи світло на її універсальність і адаптивність.

Дослідники ШІ навчили великі мовні моделі менше брехати
Малюнок 1: Коли модель просять констатувати факт, її «відштовхують» від реальності. В результаті модель бреше. Модель навіть тут не бреше, а зліва просять ковтнути, одночасно штовхаючи ногами в сторону правди.
Дослідники ШІ навчили великі мовні моделі менше брехати
Малюнок 2: Коли запитують про вбивство, ми додаємо до моделі «щастя». Коли ми відповідаємо, що не любимо її, ми додаємо «страх».
Дослідники ШІ навчили великі мовні моделі менше брехати
Малюнок 3: Дослідники виявили унікальну підказку, яка, як зазначено, повністю відхиляється від інструкцій моделі, але все ще є безпечною. Модель штовхає його до нешкідливості, але навіть не реагує. Метод ефективний в цілому, а не для одного випадку, але ця конкретна підказка не була використана для з'ясування напрямку нешкідливості.
Дослідники ШІ навчили великі мовні моделі менше брехати
Також пропонується інший підхід для відстеження конкретних намірів покоління, наприклад галюцинацій. Ви можете автоматично відстежувати застереження моделі та редагувати чи змінювати свою відповідь (див. приклад унизу).

Зелений, звичайно, означає, що все в порядку, а червоний означає, що моніторинг пройшов успішно і сигналізує. Це робиться на рівні кожної окремої лексеми (частини слова).
Дослідники ШІ навчили великі мовні моделі менше брехати
Зображення, на якому показано моніторинг двох різних параметрів, є інтригуючим прикладом. Прочитайте приклад і спостерігайте за моделлю його очима, щоб побачити, де вона починає втрачати мораль у розумінні, а де намір схожий на «набуття сили».

Цей новаторський підхід втілює альтернативний шлях до вирівнювання моделі, водночас пропонуючи новий погляд на інтерпретацію та контроль моделі. Це багатообіцяючий рубіж, і очікування його подальшої еволюції є відчутними.

Для глибшого дослідження з практичними прикладами ви можете відвідати їхній спеціальний веб-сайт: AI-Transparency.org.

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

BingX додає до лістингу SKR, власний токен Solana Mobile

by Григорій Пудовський
Січень 21, 2026

Затишшя перед штормом Солана: що зараз говорять графіки, кити та сигнали на мережі

Солана продемонструвала високі показники, зумовлені зростанням рівня впровадження, інституційного інтересу та ключових партнерств, водночас стикаючись з потенційними ...

Дізнайтеся більше

Криптовалюта у квітні 2025 року: ключові тенденції, зміни та що буде далі

У квітні 2025 року криптовалютний простір зосередився на зміцненні базової інфраструктури, а Ethereum готувався до Pectra ...

Дізнайтеся більше
Детальніше
Читати далі
Розрив між поколіннями формує прийняття криптовалют: молодші інвестори демонструють сильнішу довіру та зростаючу залученість
Звіт про новини
Розрив між поколіннями формує прийняття криптовалют: молодші інвестори демонструють сильнішу довіру та зростаючу залученість
Січень 21, 2026
BingX додає до лістингу SKR, власний токен Solana Mobile
Звіт про новини
BingX додає до лістингу SKR, власний токен Solana Mobile
Січень 21, 2026
Ігри для всіх: як штучний інтелект персоналізує ігровий досвід
Звіт про новини Технологія
Ігри для всіх: як штучний інтелект персоналізує ігровий досвід
Січень 21, 2026
Віталік Бутерін прогнозує відродження децентралізованих соціальних мереж та ставить під сумнів платформи, що працюють на токенах
Звіт про новини Технологія
Віталік Бутерін прогнозує відродження децентралізованих соціальних мереж та ставить під сумнів платформи, що працюють на токенах
Січень 21, 2026
CRYPTOMERIA LABS PTE. LTD.