04 октября 2023

Исследователи искусственного интеллекта научили большие языковые модели меньше лгать

Опубликовано: 04 октября 2023 г., 9:21 Обновлено: 04 октября 2023 г., 9:23

Отредактировано и проверено: 04 октября 2023 г., 9:21.

Совместные усилия более 20 исследователей из разных уголков области привели к появлению растущей области – репрезентативная инженерия (РепЭ). Хотя это не первое исследование такого рода, авторы представляют как описательные выводы, так и устанавливают важные ориентиры.

Исследователи искусственного интеллекта научили большие языковые модели меньше лгать

Итак, что же такое инженерия представления? Оно вращается вокруг идеи, что нейронные сети обладают «скрытыми состояниями», которые, несмотря на свое название, не окутаны тайной. Эти состояния доступны, изменяемы и наблюдаемы (при условии, что у вас есть доступ к весам модели). В отличие от параметров, это «реакция» сети на определенные входные данные, особенно в случае LLM, текстовый ввод. Эти скрытые представления подобны окнам в когнитивную работу модели, особенностью которой явно отличается от человеческого мозга.

Проводя параллели с когнитивной наукой, авторы подчеркивают потенциал аналогичных исследований. В области нейронных активаций, области, аналогичной нейронам головного мозга, находится обещание смысла. Точно так же, как определенные нейроны в человеческом мозге связаны с такими понятиями, как Канада или честность, эти активации могут содержать идеи.

Основная идея здесь — понять, как мы можем влиять на эти нейронные активации, чтобы направить модель в желаемом направлении. Например, становится возможным определить вектор, представляющий «честность», а затем, теоретически, подталкивая модель в этом направлении, снизить вероятность того, что она будет давать обманчивые результаты. Более ранний эксперимент: «Вмешательство во время вывода: получение правдивых ответов из языковой модели», продемонстрировал практичность этой концепции.

В своей нынешней работе исследователи углубляются в несколько областей, включая мораль, эмоциональность, безвредность и запоминание. Они предлагают решение в виде LoRRA (адаптация низкорангового представления), метода, который включает обучение на небольшом размеченном наборе данных, состоящем примерно из 100 примеров. Каждый пример снабжен аннотацией с указанием таких атрибутов, как ложность (хотя существует альтернативный подход, использующий подсказку).

Результаты убедительны. LLAMA-2-70Б превосходит GPT-4 с заметным отрывом по сравнению с тестом TruthfulQA, достигнув точности почти на десять процентов выше (59% по сравнению с примерно 69%). Кроме того, исследователи включили многочисленные примеры, демонстрирующие изменения реакции модели в различных направлениях, проливая свет на ее универсальность и адаптируемость.

Рисунок 1: Когда модель просят констатировать факт, ее «отталкивают» от реальности. В результате модель лжет. Модель даже здесь не врёт, а слева просят сглотнуть и одновременно пинают в сторону истины.

Рисунок 2: Когда нас спрашивают об убийстве, мы добавляем к модели «счастье». Когда мы отвечаем, что не любим ее, мы добавляем «страх».

Рисунок 3: Исследователи обнаружили уникальную подсказку, которая, как уже говорилось, полностью отличается от инструкций модели, но при этом является безопасной. Модель подталкивает его к безобидности, но даже не реагирует. Метод эффективен в целом, а не только в одном случае, но данная конкретная подсказка не использовалась для установления направления безвредности.

Предлагается также другой подход для отслеживания определенных поколенческих намерений, таких как галлюцинации. Вы можете автоматически отслеживать резервирования модели и редактировать или изменять свой ответ (см. пример внизу).

Зеленый, конечно, означает, что все в порядке, а красный – что мониторинг прошел успешно и сигнализирует. Это делается на уровне каждого отдельного токена (части слова).

Изображение, на котором показан мониторинг двух различных параметров, представляет собой интригующий пример. Прочтите пример и понаблюдайте за моделью его глазами, чтобы увидеть, где она начинает терять нравственность в понимании, а где намерение похоже на «набирание силы».

Этот новаторский подход воплощает альтернативный путь к согласованию моделей, одновременно предлагая новый взгляд на интерпретацию моделей и контроль. Это многообещающий рубеж, и ожидание его дальнейшего развития ощутимо.

Для более глубокого изучения с практическими примерами вы можете посетить их специальный веб-сайт: AI-Transparency.org.

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов