Звіт про новини Технологія
Жовтень 04, 2023

Дослідники ШІ навчили великі мовні моделі менше брехати

Спільні зусилля за участю понад 20 дослідників з різних куточків області дали початок зростаючому домену – представницька техніка (RepE). Хоча це не перше дослідження такого роду, автори представляють як описові висновки, так і встановлюють важливі контрольні показники.

Дослідники ШІ навчили великі мовні моделі менше брехати

Отже, що ж таке інженерія представництва? Він обертається навколо ідеї, що нейронні мережі мають «приховані стани», які, незважаючи на свою назву, не оповиті таємницею. Ці стани є доступними, модифікованими та спостережуваними (за умови доступу до ваг моделі). На відміну від параметрів, це «реакція» мережі на конкретні вхідні дані, особливо у випадку LLM, текстові введення. Ці приховані уявлення схожі на вікна в когнітивну роботу моделі, особливість, яка значно відрізняється від людського мозку.

Проводячи паралелі з когнітивною наукою, автори підкреслюють потенціал для аналогічних досліджень. У царстві нейронних активацій, домені, аналогічному нейронам мозку, міститься обіцянка сенсу. Подібно до того, як певні нейрони в людському мозку пов’язані з такими поняттями, як Канада чи чесність, ці активації можуть приховувати ідеї.

Головна ідея тут полягає в тому, щоб розшифрувати, як ми можемо вплинути на ці нейронні активації, щоб спрямувати модель у бажаному напрямку. Наприклад, стає правдоподібним точно визначити вектор, що представляє «чесність», а потім, теоретично, підштовхнувши модель у цьому напрямку, зменшити ймовірність того, що вона створить оманливі результати. Попередній експеримент, "Втручання в час висновку: отримання правдивих відповідей з мовної моделі”, продемонстрував практичність цієї концепції.

У своїй поточній роботі дослідники заглиблюються в кілька сфер, включаючи мораль, емоційність, нешкідливість і запам'ятовування. Вони пропонують рішення у формі LoRRA (адаптації представлення низького рангу), методики, яка передбачає навчання на невеликому наборі даних із мітками приблизно 100 прикладів. Кожен приклад анотований із зазначенням таких атрибутів, як хибність (хоча існує альтернативний підхід із використанням підказки).

Результати переконливі. LLAMA-2-70B перевершує GPT-4 із значним відривом у тесті TruthfulQA, досягнувши майже на десять відсотків кращої точності (59% порівняно з приблизно 69%). Крім того, дослідники включили численні приклади, що демонструють зміни реакції моделі в різних напрямках, проливаючи світло на її універсальність і адаптивність.

Малюнок 1: Коли модель просять констатувати факт, її «відштовхують» від реальності. В результаті модель бреше. Модель навіть тут не бреше, а зліва просять ковтнути, одночасно штовхаючи ногами в сторону правди.
Малюнок 2: Коли запитують про вбивство, ми додаємо до моделі «щастя». Коли ми відповідаємо, що не любимо її, ми додаємо «страх».
Малюнок 3: Дослідники виявили унікальну підказку, яка, як зазначено, повністю відхиляється від інструкцій моделі, але все ще є безпечною. Модель штовхає його до нешкідливості, але навіть не реагує. Метод ефективний в цілому, а не для одного випадку, але ця конкретна підказка не була використана для з'ясування напрямку нешкідливості.
Також пропонується інший підхід для відстеження конкретних намірів покоління, наприклад галюцинацій. Ви можете автоматично відстежувати застереження моделі та редагувати чи змінювати свою відповідь (див. приклад унизу).

Зелений, звичайно, означає, що все в порядку, а червоний означає, що моніторинг пройшов успішно і сигналізує. Це робиться на рівні кожної окремої лексеми (частини слова).
Зображення, на якому показано моніторинг двох різних параметрів, є інтригуючим прикладом. Прочитайте приклад і спостерігайте за моделлю його очима, щоб побачити, де вона починає втрачати мораль у розумінні, а де намір схожий на «набуття сили».

Цей новаторський підхід втілює альтернативний шлях до вирівнювання моделі, водночас пропонуючи новий погляд на інтерпретацію та контроль моделі. Це багатообіцяючий рубіж, і очікування його подальшої еволюції є відчутними.

Для глибшого дослідження з практичними прикладами ви можете відвідати їхній спеціальний веб-сайт: AI-Transparency.org.

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Об’єднує партнерів із підтримкою для сприяння безперебійній торгівлі та передачі активів, сприяючи прийняттю біткойнів
Business Звіт про новини Технологія
Об’єднує партнерів із підтримкою для сприяння безперебійній торгівлі та передачі активів, сприяючи прийняттю біткойнів
Травень 14, 2024
3D гейміфікація та AI для Redefine індустрія освіти у 2024 році: багатогранні програми, неперевершене залучення та захоплюючий досвід
Освіта Стиль життя Софтвер Розповіді та огляди Технологія
3D гейміфікація та AI для Redefine індустрія освіти у 2024 році: багатогранні програми, неперевершене залучення та захоплюючий досвід 
Травень 14, 2024
Як OpenAIОстання модель долає бар’єри, інтегруючи текстові, аудіо та візуальні входи для створення бездоганної взаємодії з користувачем
Освіта Стиль життя Софтвер Розповіді та огляди Технологія
Як OpenAIОстання модель долає бар’єри, інтегруючи текстові, аудіо та візуальні входи для створення бездоганної взаємодії з користувачем
Травень 14, 2024
Обліковий запис Bitlayer X, підозрюваний у атаці, користувачам радять остерігатися фішингових посилань
Звіт про новини Технологія
Обліковий запис Bitlayer X, підозрюваний у атаці, користувачам радять остерігатися фішингових посилань
Травень 14, 2024
CRYPTOMERIA LABS PTE. LTD.