Звіт про новини Технологія
Жовтень 27, 2023

Дослідники відтворили OpenAIРобота користувача на основі оптимізації проксимальної політики (PPO) у RLHF

Навчання з підкріпленням на основі зворотного зв’язку людини (RLHF) є невід’ємною частиною таких систем навчання, як ChatGPT, і для досягнення успіху він спирається на спеціальні методи. Спочатку був один із цих методів, оптимізація найближчої політики (PPO). задуманий в стінах OpenAI у 2017 році. На перший погляд, PPO виділявся своєю обіцянкою простоти впровадження та відносно низькою кількістю гіперпараметрів, необхідних для тонкого налаштування моделі. Однак, як кажуть, диявол криється в деталях.

Дослідники відтворили OpenAIРобота користувача на основі оптимізації проксимальної політики (PPO) у RLHF

Нещодавно в блозі з’явилася публікація під назвою «37 подробиць реалізації оптимізації проксимальної політики» проливають світло на тонкощі РРО (підготовлено до конференції ICLR). Сама назва натякає на труднощі, з якими стикаються під час реалізації цього нібито простого методу. На диво, авторам знадобилося три роки, щоб зібрати всю необхідну інформацію та відтворити результати.

Код в OpenAI репозиторій зазнав значних змін між версіями, деякі аспекти залишилися непоясненими, а особливості, які виявилися як помилки, так чи інакше дали результати. Складність PPO стає очевидною, коли ви заглиблюєтесь у деталі, а для тих, хто зацікавлений у глибокому розумінні чи самовдосконаленні, є настійно рекомендований відеорезюме.

Але на цьому історія не закінчується. Ті ж автори вирішили переглянути openai/lm-human-preferences репозиторій з 2019 року, який відіграв вирішальну роль у налагодженні мовних моделей на основі людських уподобань за допомогою PPO. Це сховище ознаменувало ранні розробки на ChatGPT. Нещодавня публікація в блозі "N Деталі впровадження RLHF з PPO”, точно повторює OpenAIробота, але використовує PyTorch і сучасні бібліотеки замість застарілого TensorFlow. Цей перехід супроводжувався власним набором проблем, таких як відмінності в реалізації оптимізатора Адама між фреймворками, що унеможливлювало тиражування навчання без коригувань.

Мабуть, найцікавішим аспектом цієї подорожі є спроба запустити експерименти на конкретних налаштуваннях GPU, щоб отримати оригінальні показники та криві навчання. Це подорож, сповнена викликів, від обмежень пам’яті на різних типах GPU до міграції OpenAI набори даних між сховищами.

На завершення дослідження оптимізації проксимальної політики (PPO) у підкріплюючому навчанні на основі зворотного зв’язку людини (RLHF) розкриває захоплюючий світ складності.

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Перехід Дональда Трампа на криптовалюту: від супротивника до прихильника та що це означає для ринку криптовалют США
Business ринки Розповіді та огляди Технологія
Перехід Дональда Трампа на криптовалюту: від супротивника до прихильника та що це означає для ринку криптовалют США
Травень 10, 2024
Layer3 запустить токен L3 цього літа, виділяючи 51% від загального обсягу поставок для спільноти
ринки Звіт про новини Технологія
Layer3 запустить токен L3 цього літа, виділяючи 51% від загального обсягу поставок для спільноти
Травень 10, 2024
Останнє попередження Едварда Сноудена розробникам Bitcoin: «Зробіть конфіденційність пріоритетом на рівні протоколу або ризикуйте її втратити»
ринки Безпека Wiki Софтвер Розповіді та огляди Технологія
Останнє попередження Едварда Сноудена розробникам Bitcoin: «Зробіть конфіденційність пріоритетом на рівні протоколу або ризикуйте її втратити»
Травень 10, 2024
Мережевий монетний двір Ethereum рівня 2 на основі оптимізму запустить свою мережу 15 травня
Звіт про новини Технологія
Мережевий монетний двір Ethereum рівня 2 на основі оптимізму запустить свою мережу 15 травня
Травень 10, 2024
CRYPTOMERIA LABS PTE. LTD.