Istraživači replicirali OpenAIRad temeljen na optimizaciji proksimalne politike (PPO) u RLHF-u
Pojačano učenje iz ljudskih povratnih informacija (RLHF) sastavni je dio sustava obuke kao što su ChatGPT, a oslanja se na specijalizirane metode za postizanje uspjeha. Jedna od tih metoda, Proximal Policy Optimization (PPO), u početku je bila smišljen unutar zidova OpenAI u 2017. Na prvi pogled, PPO se istaknuo svojim obećanjem jednostavnosti implementacije i relativno malim brojem hiperparametara potrebnih za fino podešavanje modela. Ipak, kako kažu, vrag je u detaljima.
Nedavno je objavljen post na blogu pod naslovom "37 detalja implementacije proksimalne optimizacije politike” rasvijetliti zamršenosti PPO-a (pripremljeno za ICLR konferenciju). Samo ime nagovještava izazove s kojima se suočava u provedbi ove navodno jednostavne metode. Zapanjujuće, autorima je trebalo tri godine da prikupe sve potrebne informacije i reproduciraju rezultate.
Kod u OpenAI repozitorij je doživio značajne promjene između verzija, neki su aspekti ostali neobjašnjeni, a osobitosti koje su se pojavljivale kao greške nekako su dale rezultate. Složenost PPO-a postaje očigledna kada se udubite u detalje, a za one koje zanima dublje razumijevanje ili samousavršavanje, dostupan je videosažetak koji se preporučuje.
Ali priča tu ne završava. Isti autori odlučili su ponovno pregledati openai/lm-human-preferences spremište iz 2019., koji je odigrao ključnu ulogu u finom podešavanju jezičnih modela na temelju ljudskih preferencija, koristeći PPO. Ovo spremište obilježilo je rani razvoj na ChatGPT. Nedavni post na blogu, "N Detalji implementacije RLHF-a s PPO-om”, pomno ponavlja OpenAIdjelo, ali koristi PyTorch i moderne biblioteke umjesto zastarjelog TensorFlowa. Ovaj je prijelaz došao s vlastitim nizom izazova, kao što su razlike u implementaciji Adam optimizatora između okvira, što je onemogućilo repliciranje obuke bez prilagodbi.
Možda je najintrigantniji aspekt ovog putovanja potraga za izvođenjem eksperimenata na određenim GPU postavkama kako bi se dobila originalna metrika i krivulje učenja. To je putovanje ispunjeno izazovima, od memorijskih ograničenja na različitim vrstama GPU-a do migracije OpenAI skupova podataka između skladišnih objekata.
Zaključno, istraživanje proksimalne optimizacije politike (PPO) u učenju potkrepljenja iz ljudskih povratnih informacija (RLHF) otkriva fascinantan svijet složenosti.
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.