Исследователи искусственного интеллекта научили большие языковые модели меньше лгать
Совместные усилия более 20 исследователей из разных уголков области привели к появлению растущей области – репрезентативная инженерия (РепЭ). Хотя это не первое исследование такого рода, авторы представляют как описательные выводы, так и устанавливают важные ориентиры.
Итак, что же такое инженерия представления? Оно вращается вокруг идеи, что нейронные сети обладают «скрытыми состояниями», которые, несмотря на свое название, не окутаны тайной. Эти состояния доступны, изменяемы и наблюдаемы (при условии, что у вас есть доступ к весам модели). В отличие от параметров, это «реакция» сети на определенные входные данные, особенно в случае LLM, текстовый ввод. Эти скрытые представления подобны окнам в когнитивную работу модели, особенностью которой явно отличается от человеческого мозга.
Проводя параллели с когнитивной наукой, авторы подчеркивают потенциал аналогичных исследований. В области нейронных активаций, области, аналогичной нейронам головного мозга, находится обещание смысла. Точно так же, как определенные нейроны в человеческом мозге связаны с такими понятиями, как Канада или честность, эти активации могут содержать идеи.
Основная идея здесь — понять, как мы можем влиять на эти нейронные активации, чтобы направить модель в желаемом направлении. Например, становится возможным определить вектор, представляющий «честность», а затем, теоретически, подталкивая модель в этом направлении, снизить вероятность того, что она будет давать обманчивые результаты. Более ранний эксперимент: «Вмешательство во время вывода: получение правдивых ответов из языковой модели», продемонстрировал практичность этой концепции.
В своей нынешней работе исследователи углубляются в несколько областей, включая мораль, эмоциональность, безвредность и запоминание. Они предлагают решение в виде LoRRA (адаптация низкорангового представления), метода, который включает обучение на небольшом размеченном наборе данных, состоящем примерно из 100 примеров. Каждый пример снабжен аннотацией с указанием таких атрибутов, как ложность (хотя существует альтернативный подход, использующий подсказку).
Результаты убедительны. LLAMA-2-70Б превосходит GPT-4 с заметным отрывом по сравнению с тестом TruthfulQA, достигнув точности почти на десять процентов выше (59% по сравнению с примерно 69%). Кроме того, исследователи включили многочисленные примеры, демонстрирующие изменения реакции модели в различных направлениях, проливая свет на ее универсальность и адаптируемость.
Этот новаторский подход воплощает альтернативный путь к согласованию моделей, одновременно предлагая новый взгляд на интерпретацию моделей и контроль. Это многообещающий рубеж, и ожидание его дальнейшего развития ощутимо.
Для более глубокого изучения с практическими примерами вы можете посетить их специальный веб-сайт: AI-Transparency.org.
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.