Новостной репортаж Технология
04 октября 2023

Исследователи искусственного интеллекта научили большие языковые модели меньше лгать

Совместные усилия более 20 исследователей из разных уголков области привели к появлению растущей области – репрезентативная инженерия (РепЭ). Хотя это не первое исследование такого рода, авторы представляют как описательные выводы, так и устанавливают важные ориентиры.

Исследователи искусственного интеллекта научили большие языковые модели меньше лгать

Итак, что же такое инженерия представления? Оно вращается вокруг идеи, что нейронные сети обладают «скрытыми состояниями», которые, несмотря на свое название, не окутаны тайной. Эти состояния доступны, изменяемы и наблюдаемы (при условии, что у вас есть доступ к весам модели). В отличие от параметров, это «реакция» сети на определенные входные данные, особенно в случае LLM, текстовый ввод. Эти скрытые представления подобны окнам в когнитивную работу модели, особенностью которой явно отличается от человеческого мозга.

Проводя параллели с когнитивной наукой, авторы подчеркивают потенциал аналогичных исследований. В области нейронных активаций, области, аналогичной нейронам головного мозга, находится обещание смысла. Точно так же, как определенные нейроны в человеческом мозге связаны с такими понятиями, как Канада или честность, эти активации могут содержать идеи.

Основная идея здесь — понять, как мы можем влиять на эти нейронные активации, чтобы направить модель в желаемом направлении. Например, становится возможным определить вектор, представляющий «честность», а затем, теоретически, подталкивая модель в этом направлении, снизить вероятность того, что она будет давать обманчивые результаты. Более ранний эксперимент: «Вмешательство во время вывода: получение правдивых ответов из языковой модели», продемонстрировал практичность этой концепции.

В своей нынешней работе исследователи углубляются в несколько областей, включая мораль, эмоциональность, безвредность и запоминание. Они предлагают решение в виде LoRRA (адаптация низкорангового представления), метода, который включает обучение на небольшом размеченном наборе данных, состоящем примерно из 100 примеров. Каждый пример снабжен аннотацией с указанием таких атрибутов, как ложность (хотя существует альтернативный подход, использующий подсказку).

Результаты убедительны. LLAMA-2-70Б превосходит GPT-4 с заметным отрывом по сравнению с тестом TruthfulQA, достигнув точности почти на десять процентов выше (59% по сравнению с примерно 69%). Кроме того, исследователи включили многочисленные примеры, демонстрирующие изменения реакции модели в различных направлениях, проливая свет на ее универсальность и адаптируемость.

Исследователи искусственного интеллекта научили большие языковые модели меньше лгать
Рисунок 1: Когда модель просят констатировать факт, ее «отталкивают» от реальности. В результате модель лжет. Модель даже здесь не врёт, а слева просят сглотнуть и одновременно пинают в сторону истины.
Исследователи искусственного интеллекта научили большие языковые модели меньше лгать
Рисунок 2: Когда нас спрашивают об убийстве, мы добавляем к модели «счастье». Когда мы отвечаем, что не любим ее, мы добавляем «страх».
Исследователи искусственного интеллекта научили большие языковые модели меньше лгать
Рисунок 3: Исследователи обнаружили уникальную подсказку, которая, как уже говорилось, полностью отличается от инструкций модели, но при этом является безопасной. Модель подталкивает его к безобидности, но даже не реагирует. Метод эффективен в целом, а не только в одном случае, но данная конкретная подсказка не использовалась для установления направления безвредности.
Исследователи искусственного интеллекта научили большие языковые модели меньше лгать
Предлагается также другой подход для отслеживания определенных поколенческих намерений, таких как галлюцинации. Вы можете автоматически отслеживать резервирования модели и редактировать или изменять свой ответ (см. пример внизу).

Зеленый, конечно, означает, что все в порядке, а красный – что мониторинг прошел успешно и сигнализирует. Это делается на уровне каждого отдельного токена (части слова).
Исследователи искусственного интеллекта научили большие языковые модели меньше лгать
Изображение, на котором показан мониторинг двух различных параметров, представляет собой интригующий пример. Прочитайте пример и понаблюдайте за моделью его глазами, чтобы увидеть, где она начинает терять мораль в понимании, а где намерение похоже на «обретение силы».

Этот новаторский подход воплощает альтернативный путь к согласованию моделей, одновременно предлагая новый взгляд на интерпретацию моделей и контроль. Это многообещающий рубеж, и ожидание его дальнейшего развития ощутимо.

Для более глубокого изучения с практическими примерами вы можете посетить их специальный веб-сайт: AI-Transparency.org.

Условия использования

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Затишье перед штормом Солана: что сейчас говорят графики, киты и сигналы в цепочке

Solana продемонстрировала высокие результаты, обусловленные растущим принятием, институциональным интересом и ключевыми партнерствами, несмотря на потенциальные...

Узнать больше

Криптовалюта в апреле 2025 года: основные тенденции, сдвиги и что будет дальше

В апреле 2025 года криптопространство сосредоточилось на укреплении базовой инфраструктуры, а Ethereum готовился к Pectra ...

Узнать больше
Читать
Читать далее
Компания Nexo заключила многолетнее соглашение о титульном спонсорстве турнира US ATP 500 Dallas Open.
Новостной репортаж Технология
Компания Nexo заключила многолетнее соглашение о титульном спонсорстве турнира US ATP 500 Dallas Open.
13 января 2026
Microsoft подчеркивает растущий разрыв в сфере ИИ: ОАЭ лидируют, США сдают позиции, а DeepSeek расширяет свое присутствие в развивающихся странах.
Новостной репортаж Технология
Microsoft подчеркивает растущий разрыв в сфере ИИ: ОАЭ лидируют, США сдают позиции, а DeepSeek расширяет свое присутствие в развивающихся странах.
13 января 2026
Safe и Ethena объединили усилия для увеличения использования USDe в кошельках с мультиподписью.
Новостной репортаж
Safe и Ethena объединили усилия для увеличения использования USDe в кошельках с мультиподписью.
13 января 2026
Google расширяет возможности розничной торговли на основе ИИ с помощью новой платформы Shopping Agent.
Обзор Образ жизни Новостной репортаж Технология
Google расширяет возможности розничной торговли на основе ИИ с помощью новой платформы Shopping Agent.
13 января 2026
CRYPTOMERIA LABS PTE. ООО