Новостной репортаж Технологии
27 октября 2023

Исследователи повторили OpenAIРабота, основанная на оптимизации проксимальной политики (PPO) в RLHF

Обучение с подкреплением на основе обратной связи с человеком (RLHF) является неотъемлемой частью таких систем обучения, как ChatGPT, и для достижения успеха он полагается на специализированные методы. Один из этих методов, оптимизация проксимальной политики (PPO), изначально был понятый в стенах OpenAI в 2017 году. На первый взгляд PPO выделялся обещанием простоты реализации и относительно небольшим количеством гиперпараметров, необходимых для тонкой настройки модели. Однако, как говорится, дьявол кроется в деталях.

Исследователи повторили OpenAIРабота, основанная на оптимизации проксимальной политики (PPO) в RLHF

Недавно в блоге появился пост под названием «37 деталей реализации проксимальной политики оптимизациипролили свет на тонкости PPO (подготовлено к конференции ICLR). Одно только название намекает на проблемы, с которыми приходится сталкиваться при реализации этого, казалось бы, простого метода. Удивительно, но авторам потребовалось три года, чтобы собрать всю необходимую информацию и воспроизвести результаты.

Код в OpenAI Репозиторий претерпел значительные изменения между версиями, некоторые аспекты остались необъяснимыми, а особенности, проявившиеся в виде ошибок, так или иначе дали свои результаты. Сложность PPO становится очевидной, когда вы вникаете в детали, а для тех, кто заинтересован в глубоком понимании или самосовершенствовании, настоятельно рекомендуется воспользоваться видеообзором.

Но на этом история не заканчивается. Те же авторы решили вернуться к openaiРепозиторий /lm-human-preferences с 2019 года, который сыграл решающую роль в тонкой настройке языковых моделей на основе предпочтений человека с использованием PPO. В этом репозитории отмечены ранние разработки по ChatGPT. Недавняя запись в блоге: «Подробности реализации RLHF с PPO», точно повторяет OpenAIработает, но использует PyTorch и современные библиотеки вместо устаревшего TensorFlow. Этот переход сопровождался собственным набором проблем, таких как различия в реализации оптимизатора Адама между платформами, что делало невозможным повторение обучения без корректировок.

Возможно, самым интригующим аспектом этого пути является стремление провести эксперименты на конкретных настройках графического процессора для получения оригинальных показателей и кривых обучения. Это путь, полный проблем: от ограничений памяти на различных типах графических процессоров до миграции OpenAI наборы данных между хранилищами.

В заключение, исследование оптимизации проксимальной политики (PPO) в обучении с подкреплением на основе обратной связи с человеком (RLHF) раскрывает увлекательный мир сложностей.

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Nim Network развернет систему токенизации владения ИИ и проведет продажу доходности, дата снимка запланирована на май
Области применения: Новостной репортаж Технологии
Nim Network развернет систему токенизации владения ИИ и проведет продажу доходности, дата снимка запланирована на май
13 мая 2024
Binance сотрудничает с Аргентиной в борьбе с киберпреступностью
Обзор Бизнес Области применения: Новостной репортаж Software Технологии
Binance сотрудничает с Аргентиной в борьбе с киберпреступностью
13 мая 2024
Over Protocol планирует запустить свою основную сеть в июне, поскольку ее тестовая сеть привлекает более 750,000 XNUMX пользователей
Новостной репортаж Технологии
Over Protocol планирует запустить свою основную сеть в июне, поскольку ее тестовая сеть привлекает более 750,000 XNUMX пользователей
13 мая 2024
Подавление криптовалют в России становится предложением ужесточить правила для частных майнеров
Обзор Области применения: Software Технологии
Подавление криптовалют в России становится предложением ужесточить правила для частных майнеров
13 мая 2024
CRYPTOMERIA LABS PTE. ООО