Звіт про новини Технологія
Жовтень 04, 2023

Дослідники ШІ навчили великі мовні моделі менше брехати

Спільні зусилля за участю понад 20 дослідників з різних куточків області дали початок зростаючому домену – представницька техніка (RepE). Хоча це не перше дослідження такого роду, автори представляють як описові висновки, так і встановлюють важливі контрольні показники.

Дослідники ШІ навчили великі мовні моделі менше брехати

Отже, що ж таке інженерія представництва? Він обертається навколо ідеї, що нейронні мережі мають «приховані стани», які, незважаючи на свою назву, не оповиті таємницею. Ці стани є доступними, модифікованими та спостережуваними (за умови доступу до ваг моделі). На відміну від параметрів, це «реакція» мережі на конкретні вхідні дані, особливо у випадку LLM, текстові введення. Ці приховані уявлення схожі на вікна в когнітивну роботу моделі, особливість, яка значно відрізняється від людського мозку.

Проводячи паралелі з когнітивною наукою, автори підкреслюють потенціал для аналогічних досліджень. У царстві нейронних активацій, домені, аналогічному нейронам мозку, міститься обіцянка сенсу. Подібно до того, як певні нейрони в людському мозку пов’язані з такими поняттями, як Канада чи чесність, ці активації можуть приховувати ідеї.

Головна ідея тут полягає в тому, щоб розшифрувати, як ми можемо вплинути на ці нейронні активації, щоб спрямувати модель у бажаному напрямку. Наприклад, стає правдоподібним точно визначити вектор, що представляє «чесність», а потім, теоретично, підштовхнувши модель у цьому напрямку, зменшити ймовірність того, що вона створить оманливі результати. Попередній експеримент, "Втручання в час висновку: отримання правдивих відповідей з мовної моделі”, продемонстрував практичність цієї концепції.

У своїй поточній роботі дослідники заглиблюються в кілька сфер, включаючи мораль, емоційність, нешкідливість і запам'ятовування. Вони пропонують рішення у формі LoRRA (адаптації представлення низького рангу), методики, яка передбачає навчання на невеликому наборі даних із мітками приблизно 100 прикладів. Кожен приклад анотований із зазначенням таких атрибутів, як хибність (хоча існує альтернативний підхід із використанням підказки).

Результати переконливі. LLAMA-2-70B перевершує GPT-4 із значним відривом у тесті TruthfulQA, досягнувши майже на десять відсотків кращої точності (59% порівняно з приблизно 69%). Крім того, дослідники включили численні приклади, що демонструють зміни реакції моделі в різних напрямках, проливаючи світло на її універсальність і адаптивність.

Дослідники ШІ навчили великі мовні моделі менше брехати
Малюнок 1: Коли модель просять констатувати факт, її «відштовхують» від реальності. В результаті модель бреше. Модель навіть тут не бреше, а зліва просять ковтнути, одночасно штовхаючи ногами в сторону правди.
Дослідники ШІ навчили великі мовні моделі менше брехати
Малюнок 2: Коли запитують про вбивство, ми додаємо до моделі «щастя». Коли ми відповідаємо, що не любимо її, ми додаємо «страх».
Дослідники ШІ навчили великі мовні моделі менше брехати
Малюнок 3: Дослідники виявили унікальну підказку, яка, як зазначено, повністю відхиляється від інструкцій моделі, але все ще є безпечною. Модель штовхає його до нешкідливості, але навіть не реагує. Метод ефективний в цілому, а не для одного випадку, але ця конкретна підказка не була використана для з'ясування напрямку нешкідливості.
Дослідники ШІ навчили великі мовні моделі менше брехати
Також пропонується інший підхід для відстеження конкретних намірів покоління, наприклад галюцинацій. Ви можете автоматично відстежувати застереження моделі та редагувати чи змінювати свою відповідь (див. приклад унизу).

Зелений, звичайно, означає, що все в порядку, а червоний означає, що моніторинг пройшов успішно і сигналізує. Це робиться на рівні кожної окремої лексеми (частини слова).
Дослідники ШІ навчили великі мовні моделі менше брехати
Зображення, на якому показано моніторинг двох різних параметрів, є інтригуючим прикладом. Прочитайте приклад і спостерігайте за моделлю його очима, щоб побачити, де вона починає втрачати мораль у розумінні, а де намір схожий на «набуття сили».

Цей новаторський підхід втілює альтернативний шлях до вирівнювання моделі, водночас пропонуючи новий погляд на інтерпретацію та контроль моделі. Це багатообіцяючий рубіж, і очікування його подальшої еволюції є відчутними.

Для глибшого дослідження з практичними прикладами ви можете відвідати їхній спеціальний веб-сайт: AI-Transparency.org.

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Детальніше
Читати далі
Захист систем ZK за допомогою безперервної та автоматизованої безпеки
Думка Business ринки Софтвер Технологія
Захист систем ZK за допомогою безперервної та автоматизованої безпеки
Березня 27, 2025
Бренди Animoca та Soneium співпрацюють над рівнем ідентичності мережі Moca та аніме-ініціативами San FranTokyo
Звіт про новини Технологія
Бренди Animoca та Soneium співпрацюють над рівнем ідентичності мережі Moca та аніме-ініціативами San FranTokyo
Березня 27, 2025
Zeus Network запускає APOLLO та zBTC, ставши першою безнадійною мережевою біржею біткойнів на Solana
Звіт про новини Технологія
Zeus Network запускає APOLLO та zBTC, ставши першою безнадійною мережевою біржею біткойнів на Solana
Березня 27, 2025
Ripple співпрацює з Chipper Cash, щоб забезпечити швидкі та економічно ефективні криптовалютні платежі по всій Африці
Звіт про новини Технологія
Ripple співпрацює з Chipper Cash, щоб забезпечити швидкі та економічно ефективні криптовалютні платежі по всій Африці
Березня 27, 2025
CRYPTOMERIA LABS PTE. LTD.