Replikovaní výzkumníci OpenAI's Work Based on Proximal Policy Optimization (PPO) v RLHF
Reinforcement Learning from Human Feedback (RLHF) je nedílnou součástí tréninkových systémů jako je ChatGPTa k dosažení úspěchu se spoléhá na specializované metody. Jedna z těchto metod, Proximal Policy Optimization (PPO), byla zpočátku koncipovaný ve zdech OpenAI v roce 2017. PPO na první pohled vynikal příslibem jednoduchosti implementace a relativně nízkým počtem hyperparametrů potřebných k doladění modelu. Jak se však říká, ďábel se skrývá v detailech.
Nedávno vyšel blogový příspěvek s názvem „37 podrobností o implementaci optimalizace proximální politiky“ osvětlil spletitost PPO (připraveno na konferenci ICLR). Samotný název naznačuje problémy, kterým čelíte při implementaci této údajně přímočaré metody. Překvapivě trvalo autorům tři roky, než shromáždili všechny potřebné informace a reprodukovali výsledky.
Kód v OpenAI úložiště prošlo mezi verzemi významnými změnami, některé aspekty zůstaly nevysvětleny a zvláštnosti, které se objevily jako chyby, nějak přinesly výsledky. Složitost PPO se ukáže, když se ponoříte do detailů, a pro ty, kteří mají zájem o hluboké porozumění nebo sebezdokonalení, je k dispozici vysoce doporučené video shrnutí.
Tím ale příběh nekončí. Stejní autoři se rozhodli znovu navštívit openai/lm-human-preferences úložiště z roku 2019, která sehrála zásadní roli při dolaďování jazykových modelů na základě lidských preferencí pomocí PPO. Toto úložiště poznamenalo raný vývoj ChatGPT. Nedávný příspěvek na blogu „Podrobnosti o implementaci N RLHF s PPO“, přesně kopíruje OpenAI's work, ale místo zastaralého TensorFlow používá PyTorch a moderní knihovny. Tento přechod přišel s vlastní sadou výzev, jako jsou rozdíly v implementaci optimalizátoru Adam mezi rámci, které znemožňují replikaci školení bez úprav.
Snad nejzajímavějším aspektem této cesty je snaha provádět experimenty na konkrétních nastaveních GPU, abyste získali originální metriky a křivky učení. Je to cesta plná výzev, od omezení paměti u různých typů GPU až po migraci OpenAI datové sady mezi úložnými zařízeními.
Závěrem lze říci, že průzkum optimalizace proximální politiky (PPO) v posilování učení z lidské zpětné vazby (RLHF) odhaluje fascinující svět složitostí.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.