15 мая 2023

Программы LLM: новый путь к точной настройке нейронных моделей в сложных ситуациях

Опубликовано: 15 мая 2023 г. в 3:42 Обновлено: 15 мая 2023 г. в 3:42

Отредактировано и проверено фактами: 15 мая 2023 г., 3:42.

Коротко

Авторы предлагают альтернативный путь под названием LLM Programs, который можно рассматривать как развитие контекстного обучения.

Ключом к решению проблемы с помощью программы LLM является способность разложить решение проблемы на последовательность более простых шагов.

Есть две основные области настройки LLM: тонкая настройка (или дополнительное обучение) предварительно обученной базовой модели и обучение в контексте. Для тонкой настройки требуются значительные вычислительные ресурсы, сбор данных и инфраструктура, чтобы сделать это, а затем разместить точно настроенные модели. Между тем, обучение в контексте включает в себя составление правильной подсказки с примерами решения проблемы, такой как Цепочка мыслей (CoT). Однако есть некоторые трудности, такие как ограниченный размер текста, который можно подать в модель и то, что в сложной многопроходной подсказке шаги могут мешать друг другу, и модель может на что-то отвлекаться. это не должно быть отвлечено в данный момент. Авторы предлагают альтернативный путь, называемый Программы LLM, что можно рассматривать как развитие контекстного обучения.

Программы LLM: новый путь к точной настройке нейронных моделей в сложных ситуациях

LLM встроен в программу (в обычном язык программирования, например, в Python). Этот внешний код отвечает за сохранение состояния и пошаговую поддержку модели. У него есть несколько основных преимуществ: языки программирования адаптированы для этого, размер доступного контекста увеличивается, и шаги не мешают друг другу. Ключом к решению проблемы с помощью программы LLM является способность разложить решение проблемы на последовательность более простых шагов. Этот подход отличается от предыдущих работ, где в модели использовались внешние инструменты, такие как калькуляторы или интерпретаторы кода для поддержания государства. Такой подход хорош тем, что таким образом можно описать сложную и размашистую задачу, облегчив ее тестирование, отладку и оценку качества.

Кроме того, между этапами нет помех, что упрощает работу с LLM. Системы вопрос-ответ тоже не новы; они существовали задолго до LLM. Как сейчас решается задача ответов на вопросы?

Сайты часто обновляются, поэтому замороженная модель не вариант; он быстро устареет и не сможет отвечать на вопросы о новинках. Постоянное переобучение модели для каждого обновления — нереальный вариант: дорого и долго. Вместо этого страницы веб-сайта обычно индексируются, помещаются в какую-либо базу данных и часто векторизируются. По запросу пользователя извлекаются соответствующие документы и отправляются в качестве контекста в LLM.

В такой парадигме проблема естественно решается через программу LLM. В качестве бонуса это становится возможным реализовать более сложную многопроходную логику, которая не совсем вписывалась бы в контекст.

Протестировано на Набор данных StrategyQA содержащие задачи бинарной классификации, решение которых предполагает многосторонние рассуждения. Типа «Проникает ли солнечный свет в самое глубокое место Черного моря?». Для ответа нужно найти максимальную глубину (2 км) и насколько глубоко свет проникает в воду (1 км), после чего сделать вывод. Давайте посмотрим на другой пример вопроса: «Пользовался ли Аристотель ноутбуком?» Этот вопрос не так прост и не следует последовательности шагов рассуждений в явном виде, как вопрос «Был ли Аристотель жив, когда был изобретен ноутбук?» делает. Набор данных фокусируется на вопросах, в которых такая последовательность неявна. В наборе данных всего 2,780 вопросов, из которых только 918 содержат абзацы с доказательствами, подкрепляющими все этапы рассуждений. В текущей работе он ограничивается этим подмножеством; в противном случае нам пришлось бы полагаться на то, что LLM узнает некоторые факты во время предварительного обучения.

OPT-175B LLM по умолчанию не очень хорошо следует инструкциям; ему не нужно было настраивать инструкции или данные разговора. Чтобы решить проблему ответа на вопрос, основанную на фактических данных, он делится на этап фильтрации данных и этап поиска по дереву.

На этапе фильтрации, задав вопрос, разработчики просматривают все абзацы и выбирают наиболее релевантные. Например, с помощью краткой подсказки попросите LLM ответить (да/нет), относится ли данный абзац к заданному вопросу. Протестировано на 300 подмножествах StrategyQA, где каждому вопросу соответствовал абзац, соответствующий или нет, 50/50. OPT-175B и text-davinci-002 не имеют гораздо более высокое качество чем случайный базовый уровень: до 56%. Чем более продвинутый 11B Тк-Инструкт ненамного лучше — 61.6%.

Из-за низкого качества этого подхода была составлена альтернатива, которая учитывает среднее отрицательное логарифмическое правдоподобие (NLL) вопроса в сочетании с предыдущим абзацем текста, а затем ранжирует результаты. Оценка проводилась по набору данных, где для каждого вопроса было 100 абзацев, и только один был релевантным (таким образом, случайное угадывание дает 1%). Мы получили точность топ-1 на 79% и топ-5 на 93%. Для этого расчета обычно нужен доступ к самой модели, что не всегда делается в API.

Далее следует этап построения выходных цепочек. Это делается путем поиска в дереве, где вопрос является корнем, и на каждом уровне есть много абзацев с возможными доказательствами, используемыми в качестве контекста для создания следующего шага. Каждый путь через дерево представляет собой потенциальную выходную цепочку. Сделать вывод по всем возможным цепочкам нереально, поэтому ранжируются все доступные цепочки, а цепочка с наивысшим рангом расширяется. Это такой вариант поиска луча. Процесс останавливается, когда получен ответ или пройдено максимально допустимое количество шагов.

Наиболее важными деталями являются две стратегии ранжирования, проверенные на этапе поиска по дереву. Первая стратегия основана на среднем значении NLL по всей цепочке, а вторая стратегия смотрит на среднюю разницу в NLL с абзацем и без него (P), с вопросом и без него (Q). На доступных 918 вопросах от StrategyQA этот подход значительно улучшает качество ответов по сравнению с базовым уровнем с CoT (60%); оба варианта поиска дают около 66% (стратегия с чуть большей дельтой). Если представлены золотые факты, качество становится около 81%, что является верхним пределом для OPT. Кажется, Darklang куда-то движется, но немного другим путем.

Статья основана на Telegram после.

Подробнее об ИИ:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов