27 октября 2023

Исследователи повторили OpenAIРабота, основанная на оптимизации проксимальной политики (PPO) в RLHF

Опубликовано: 27 октября 2023 г., 8:56 Обновлено: 27 октября 2023 г., 8:56

Отредактировано и проверено: 27 октября 2023 г., 8:56.

Обучение с подкреплением на основе обратной связи с человеком (RLHF) является неотъемлемой частью таких систем обучения, как ChatGPT, и для достижения успеха он полагается на специализированные методы. Один из этих методов, оптимизация проксимальной политики (PPO), изначально был понятый в стенах OpenAI в 2017 году. На первый взгляд PPO выделялся обещанием простоты реализации и относительно небольшим количеством гиперпараметров, необходимых для тонкой настройки модели. Однако, как говорится, дьявол кроется в деталях.

Исследователи повторили OpenAIРабота, основанная на оптимизации проксимальной политики (PPO) в RLHF

Недавно в блоге появился пост под названием «37 деталей реализации проксимальной политики оптимизациипролили свет на тонкости PPO (подготовлено к конференции ICLR). Одно только название намекает на проблемы, с которыми приходится сталкиваться при реализации этого, казалось бы, простого метода. Удивительно, но авторам потребовалось три года, чтобы собрать всю необходимую информацию и воспроизвести результаты.

Вы пытались прочитать код tensorflow 1.x в openai/базовый PPO?

Наш пост в блоге поможет вам понять *все* в нем с помощью

1) 🎥 видеоуроки
2) 📜 подробные ссылки и пояснения
3) ⌨️ действительно простой код

Эта работа заняла у меня 3 года. 2/32 pic.twitter.com/w5jpQZkD6L
— Коста Хуанг (@vwxyzjn) 25 апреля 2022

Код в OpenAI Репозиторий претерпел значительные изменения между версиями, некоторые аспекты остались необъяснимыми, а особенности, проявившиеся в виде ошибок, так или иначе дали свои результаты. Сложность PPO становится очевидной, когда вы вникаете в детали, а для тех, кто заинтересован в глубоком понимании или самосовершенствовании, настоятельно рекомендуется воспользоваться видеообзором.

Но на этом история не заканчивается. Те же авторы решили вернуться к openaiРепозиторий /lm-human-preferences с 2019 года, который сыграл решающую роль в тонкой настройке языковых моделей на основе предпочтений человека с использованием PPO. В этом репозитории отмечены ранние разработки по ChatGPT. Недавняя запись в блоге: «Подробности реализации RLHF с PPO», точно повторяет OpenAIработает, но использует PyTorch и современные библиотеки вместо устаревшего TensorFlow. Этот переход сопровождался собственным набором проблем, таких как различия в реализации оптимизатора Адама между платформами, что делало невозможным повторение обучения без корректировок.

1. (самый интересный) TF и PT имеют разные реализации оптимизатора Адама, и они влияют на производительность. В частности, Адам из PT производит более агрессивные обновления на ранних этапах обучения. pic.twitter.com/lJ99KTmD8M
— Коста Хуанг (@vwxyzjn) 24 октября 2023

Возможно, самым интригующим аспектом этого пути является стремление провести эксперименты на конкретных настройках графического процессора для получения оригинальных показателей и кривых обучения. Это путь, полный проблем: от ограничений памяти на различных типах графических процессоров до миграции OpenAI наборы данных между хранилищами.

В заключение, исследование оптимизации проксимальной политики (PPO) в обучении с подкреплением на основе обратной связи с человеком (RLHF) раскрывает увлекательный мир сложностей.

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов