Жовтень 27, 2023

Дослідники відтворили OpenAIРобота користувача на основі оптимізації проксимальної політики (PPO) у RLHF

Опубліковано: 27 жовтня 2023 о 8:56 Оновлено: 27 жовтня 2023 о 8:56

Відредаговано та перевірено: 27 жовтня 2023 о 8:56

Навчання з підкріпленням на основі зворотного зв’язку людини (RLHF) є невід’ємною частиною таких систем навчання, як ChatGPT, і для досягнення успіху він спирається на спеціальні методи. Спочатку був один із цих методів, оптимізація найближчої політики (PPO). задуманий в стінах OpenAI у 2017 році. На перший погляд, PPO виділявся своєю обіцянкою простоти впровадження та відносно низькою кількістю гіперпараметрів, необхідних для тонкого налаштування моделі. Однак, як кажуть, диявол криється в деталях.

Дослідники відтворили OpenAIРобота користувача на основі оптимізації проксимальної політики (PPO) у RLHF

Нещодавно в блозі з’явилася публікація під назвою «37 подробиць реалізації оптимізації проксимальної політики» проливають світло на тонкощі РРО (підготовлено до конференції ICLR). Сама назва натякає на труднощі, з якими стикаються під час реалізації цього нібито простого методу. На диво, авторам знадобилося три роки, щоб зібрати всю необхідну інформацію та відтворити результати.

Вам було важко прочитати код tensorflow 1.x openai/baselines' PPO?

Наша публікація в блозі допоможе вам зрозуміти *все* в ній

1) 🎥 відеоуроки
2) 📜 докладні посилання та пояснення
3) ⌨️ дуже простий код

Ця робота зайняла у мене 3 роки. 2/32 pic.twitter.com/w5jpQZkD6L
— Коста Хуанг (@vwxyzjn) Квітень 25, 2022

Код в OpenAI репозиторій зазнав значних змін між версіями, деякі аспекти залишилися непоясненими, а особливості, які виявилися як помилки, так чи інакше дали результати. Складність PPO стає очевидною, коли ви заглиблюєтесь у деталі, а для тих, хто зацікавлений у глибокому розумінні чи самовдосконаленні, є настійно рекомендований відеорезюме.

Але на цьому історія не закінчується. Ті ж автори вирішили переглянути openai/lm-human-preferences репозиторій з 2019 року, який відіграв вирішальну роль у налагодженні мовних моделей на основі людських уподобань за допомогою PPO. Це сховище ознаменувало ранні розробки на ChatGPT. Нещодавня публікація в блозі "N Деталі впровадження RLHF з PPO”, точно повторює OpenAIробота, але використовує PyTorch і сучасні бібліотеки замість застарілого TensorFlow. Цей перехід супроводжувався власним набором проблем, таких як відмінності в реалізації оптимізатора Адама між фреймворками, що унеможливлювало тиражування навчання без коригувань.

1. (найцікавіший) TF і PT мають різні оптимізатори Адама, і вони впливають на продуктивність. Зокрема, Адам PT створює більш агресивні оновлення на початку навчання. pic.twitter.com/lJ99KTmD8M
— Коста Хуанг (@vwxyzjn) Жовтень 24, 2023

Мабуть, найцікавішим аспектом цієї подорожі є спроба запустити експерименти на конкретних налаштуваннях GPU, щоб отримати оригінальні показники та криві навчання. Це подорож, сповнена викликів, від обмежень пам’яті на різних типах GPU до міграції OpenAI набори даних між сховищами.

На завершення дослідження оптимізації проксимальної політики (PPO) у підкріплюючому навчанні на основі зворотного зв’язку людини (RLHF) розкриває захоплюючий світ складності.

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.

інші статті

Дамір Ялалов