Října 27, 2023

Replikovaní výzkumníci OpenAI's Work Based on Proximal Policy Optimization (PPO) v RLHF

Zveřejněno: 27. října 2023 v 8:56 Aktualizováno: 27. října 2023 v 8:56

Upraveno a ověřeno: 27. října 2023 v 8:56

Reinforcement Learning from Human Feedback (RLHF) je nedílnou součástí tréninkových systémů jako je ChatGPTa k dosažení úspěchu se spoléhá na specializované metody. Jedna z těchto metod, Proximal Policy Optimization (PPO), byla zpočátku koncipovaný ve zdech OpenAI v roce 2017. PPO na první pohled vynikal příslibem jednoduchosti implementace a relativně nízkým počtem hyperparametrů potřebných k doladění modelu. Jak se však říká, ďábel se skrývá v detailech.

Replikovaní výzkumníci OpenAI's Work Based on Proximal Policy Optimization (PPO) v RLHF

Nedávno vyšel blogový příspěvek s názvem „37 podrobností o implementaci optimalizace proximální politiky“ osvětlil spletitost PPO (připraveno na konferenci ICLR). Samotný název naznačuje problémy, kterým čelíte při implementaci této údajně přímočaré metody. Překvapivě trvalo autorům tři roky, než shromáždili všechny potřebné informace a reprodukovali výsledky.

Měli jste potíže se čtením kódu tensorflow 1.x? openai/základní PPO?

Náš příspěvek na blogu vám pomůže pochopit *vše* v něm

1) 🎥 videonávody
2) 📜 podrobné odkazy a vysvětlení
3) ⌨️ opravdu jednoduchý kód

Tato práce mi trvala 3 roky. 2/32 pic.twitter.com/w5jpQZkD6L
— Costa Huang (@vwxyzjn) 25. dubna 2022

Kód v OpenAI úložiště prošlo mezi verzemi významnými změnami, některé aspekty zůstaly nevysvětleny a zvláštnosti, které se objevily jako chyby, nějak přinesly výsledky. Složitost PPO se ukáže, když se ponoříte do detailů, a pro ty, kteří mají zájem o hluboké porozumění nebo sebezdokonalení, je k dispozici vysoce doporučené video shrnutí.

Tím ale příběh nekončí. Stejní autoři se rozhodli znovu navštívit openai/lm-human-preferences úložiště z roku 2019, která sehrála zásadní roli při dolaďování jazykových modelů na základě lidských preferencí pomocí PPO. Toto úložiště poznamenalo raný vývoj ChatGPT. Nedávný příspěvek na blogu „Podrobnosti o implementaci N RLHF s PPO“, přesně kopíruje OpenAI's work, ale místo zastaralého TensorFlow používá PyTorch a moderní knihovny. Tento přechod přišel s vlastní sadou výzev, jako jsou rozdíly v implementaci optimalizátoru Adam mezi rámci, které znemožňují replikaci školení bez úprav.

1. (nejzajímavější) TF a PT mají různé impl optimalizátoru Adam a ovlivňují výkon. Zejména PT's adam produkuje agresivnější aktualizace na začátku tréninku. pic.twitter.com/lJ99KTmD8M
— Costa Huang (@vwxyzjn) Října 24, 2023

Snad nejzajímavějším aspektem této cesty je snaha provádět experimenty na konkrétních nastaveních GPU, abyste získali originální metriky a křivky učení. Je to cesta plná výzev, od omezení paměti u různých typů GPU až po migraci OpenAI datové sady mezi úložnými zařízeními.

Závěrem lze říci, že průzkum optimalizace proximální politiky (PPO) v posilování učení z lidské zpětné vazby (RLHF) odhaluje fascinující svět složitostí.

Tagy:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.

Další články

Damir Yalalov