Новостной репортаж Технологии
27 октября 2023

Исследователи повторили OpenAIРабота, основанная на оптимизации проксимальной политики (PPO) в RLHF

Обучение с подкреплением на основе обратной связи с человеком (RLHF) является неотъемлемой частью таких систем обучения, как ChatGPT, и для достижения успеха он полагается на специализированные методы. Один из этих методов, оптимизация проксимальной политики (PPO), изначально был понятый в стенах OpenAI в 2017 году. На первый взгляд PPO выделялся обещанием простоты реализации и относительно небольшим количеством гиперпараметров, необходимых для тонкой настройки модели. Однако, как говорится, дьявол кроется в деталях.

Исследователи повторили OpenAIРабота, основанная на оптимизации проксимальной политики (PPO) в RLHF

Недавно в блоге появился пост под названием «37 деталей реализации проксимальной политики оптимизациипролили свет на тонкости PPO (подготовлено к конференции ICLR). Одно только название намекает на проблемы, с которыми приходится сталкиваться при реализации этого, казалось бы, простого метода. Удивительно, но авторам потребовалось три года, чтобы собрать всю необходимую информацию и воспроизвести результаты.

Код в OpenAI Репозиторий претерпел значительные изменения между версиями, некоторые аспекты остались необъяснимыми, а особенности, проявившиеся в виде ошибок, так или иначе дали свои результаты. Сложность PPO становится очевидной, когда вы вникаете в детали, а для тех, кто заинтересован в глубоком понимании или самосовершенствовании, настоятельно рекомендуется воспользоваться видеообзором.

Но на этом история не заканчивается. Те же авторы решили вернуться к openaiРепозиторий /lm-human-preferences с 2019 года, который сыграл решающую роль в тонкой настройке языковых моделей на основе предпочтений человека с использованием PPO. В этом репозитории отмечены ранние разработки по ChatGPT. Недавняя запись в блоге: «Подробности реализации RLHF с PPO», точно повторяет OpenAIработает, но использует PyTorch и современные библиотеки вместо устаревшего TensorFlow. Этот переход сопровождался собственным набором проблем, таких как различия в реализации оптимизатора Адама между платформами, что делало невозможным повторение обучения без корректировок.

Возможно, самым интригующим аспектом этого пути является стремление провести эксперименты на конкретных настройках графического процессора для получения оригинальных показателей и кривых обучения. Это путь, полный проблем: от ограничений памяти на различных типах графических процессоров до миграции OpenAI наборы данных между хранилищами.

В заключение, исследование оптимизации проксимальной политики (PPO) в обучении с подкреплением на основе обратной связи с человеком (RLHF) раскрывает увлекательный мир сложностей.

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Безумие DOGE: анализ недавнего роста стоимости Dogecoin (DOGE)

Криптовалютная индустрия стремительно расширяется, и мем-монеты готовятся к значительному подъему. Догекоин (DOGE), ...

Узнать больше

Эволюция контента, созданного искусственным интеллектом, в Метавселенной

Появление генеративного ИИ-контента — одно из самых интересных событий в виртуальной среде…

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Лучшие предложения этой недели, крупные инвестиции в искусственный интеллект, информационные технологии, Web3и Крипто (22-26.04)
Digest Бизнес Области применения: Технологии
Лучшие предложения этой недели, крупные инвестиции в искусственный интеллект, информационные технологии, Web3и Крипто (22-26.04)
26 апреля 2024
Виталик Бутерин прокомментировал централизацию PoW, отметив, что это был временный этап до PoS
Новостной репортаж Технологии
Виталик Бутерин прокомментировал централизацию PoW, отметив, что это был временный этап до PoS
26 апреля 2024
Offchain Labs сообщает об обнаружении двух критических уязвимостей в доказательствах мошенничества OP Stack от Optimism
Новостной репортаж Software Технологии
Offchain Labs сообщает об обнаружении двух критических уязвимостей в доказательствах мошенничества OP Stack от Optimism
26 апреля 2024
Открытый рынок Dymension для обеспечения ликвидности от RollApps eIBC запускается в основной сети
Новостной репортаж Технологии
Открытый рынок Dymension для обеспечения ликвидности от RollApps eIBC запускается в основной сети 
26 апреля 2024
CRYPTOMERIA LABS PTE. ООО