Novinky Technika
Října 27, 2023

Replikovaní výzkumníci OpenAI's Work Based on Proximal Policy Optimization (PPO) v RLHF

Reinforcement Learning from Human Feedback (RLHF) je nedílnou součástí tréninkových systémů jako je ChatGPTa k dosažení úspěchu se spoléhá na specializované metody. Jedna z těchto metod, Proximal Policy Optimization (PPO), byla zpočátku koncipovaný ve zdech OpenAI v roce 2017. PPO na první pohled vynikal příslibem jednoduchosti implementace a relativně nízkým počtem hyperparametrů potřebných k doladění modelu. Jak se však říká, ďábel se skrývá v detailech.

Replikovaní výzkumníci OpenAI's Work Based on Proximal Policy Optimization (PPO) v RLHF

Nedávno vyšel blogový příspěvek s názvem „37 podrobností o implementaci optimalizace proximální politiky“ osvětlil spletitost PPO (připraveno na konferenci ICLR). Samotný název naznačuje problémy, kterým čelíte při implementaci této údajně přímočaré metody. Překvapivě trvalo autorům tři roky, než shromáždili všechny potřebné informace a reprodukovali výsledky.

Kód v OpenAI úložiště prošlo mezi verzemi významnými změnami, některé aspekty zůstaly nevysvětleny a zvláštnosti, které se objevily jako chyby, nějak přinesly výsledky. Složitost PPO se ukáže, když se ponoříte do detailů, a pro ty, kteří mají zájem o hluboké porozumění nebo sebezdokonalení, je k dispozici vysoce doporučené video shrnutí.

Tím ale příběh nekončí. Stejní autoři se rozhodli znovu navštívit openai/lm-human-preferences úložiště z roku 2019, která sehrála zásadní roli při dolaďování jazykových modelů na základě lidských preferencí pomocí PPO. Toto úložiště poznamenalo raný vývoj ChatGPT. Nedávný příspěvek na blogu „Podrobnosti o implementaci N RLHF s PPO“, přesně kopíruje OpenAI's work, ale místo zastaralého TensorFlow používá PyTorch a moderní knihovny. Tento přechod přišel s vlastní sadou výzev, jako jsou rozdíly v implementaci optimalizátoru Adam mezi rámci, které znemožňují replikaci školení bez úprav.

Snad nejzajímavějším aspektem této cesty je snaha provádět experimenty na konkrétních nastaveních GPU, abyste získali originální metriky a křivky učení. Je to cesta plná výzev, od omezení paměti u různých typů GPU až po migraci OpenAI datové sady mezi úložnými zařízeními.

Závěrem lze říci, že průzkum optimalizace proximální politiky (PPO) v posilování učení z lidské zpětné vazby (RLHF) odhaluje fascinující svět složitostí.

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více

Zakladatelé peněženky Samourai byli obviněni z usnadňování 2 miliard dolarů v obchodech Darknet

Obavy zakladatelů Peněženky Samourai představují pro průmysl významnou překážku, která podtrhuje přetrvávající ...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
AltLayer vstupuje do druhé fáze své vytyčovací iniciativy a představuje token realALT
Trhy Novinky Technika
AltLayer vstupuje do druhé fáze své vytyčovací iniciativy a představuje token realALT
2
Řetězec BNB zveřejnil zprávu za 1. čtvrtletí 2024, zdůrazňuje 55.8% snížení ztráty hodnoty, zatímco BSC TVL stoupá o 70.8 %
Trhy Novinky Technika
Řetězec BNB zveřejnil zprávu za 1. čtvrtletí 2024, zdůrazňuje 55.8% snížení ztráty hodnoty, zatímco BSC TVL stoupá o 70.8 %
2
Naver a Kakao's Kaia: Nová asijská blockchainová velmoc připravena narušit globální krypto trhy
Business Vývoj Příběhy a recenze Technika
Naver a Kakao's Kaia: Nová asijská blockchainová velmoc připravena narušit globální krypto trhy
2
Aave Labs představuje návrh „Aave 2030“ včetně spuštění protokolu Aave V4
Business Novinky Technika
Aave Labs představuje návrh „Aave 2030“ včetně spuštění protokolu Aave V4
2
CRYPTOMERIA LABS PTE. LTD.