Vijesti Tehnologija
Listopada 27, 2023

Istraživači replicirali OpenAIRad temeljen na optimizaciji proksimalne politike (PPO) u RLHF-u

Pojačano učenje iz ljudskih povratnih informacija (RLHF) sastavni je dio sustava obuke kao što su ChatGPT, a oslanja se na specijalizirane metode za postizanje uspjeha. Jedna od tih metoda, Proximal Policy Optimization (PPO), u početku je bila smišljen unutar zidova OpenAI u 2017. Na prvi pogled, PPO se istaknuo svojim obećanjem jednostavnosti implementacije i relativno malim brojem hiperparametara potrebnih za fino podešavanje modela. Ipak, kako kažu, vrag je u detaljima.

Istraživači replicirali OpenAIRad temeljen na optimizaciji proksimalne politike (PPO) u RLHF-u

Nedavno je objavljen post na blogu pod naslovom "37 detalja implementacije proksimalne optimizacije politike” rasvijetliti zamršenosti PPO-a (pripremljeno za ICLR konferenciju). Samo ime nagovještava izazove s kojima se suočava u provedbi ove navodno jednostavne metode. Zapanjujuće, autorima je trebalo tri godine da prikupe sve potrebne informacije i reproduciraju rezultate.

Kod u OpenAI repozitorij je doživio značajne promjene između verzija, neki su aspekti ostali neobjašnjeni, a osobitosti koje su se pojavljivale kao greške nekako su dale rezultate. Složenost PPO-a postaje očigledna kada se udubite u detalje, a za one koje zanima dublje razumijevanje ili samousavršavanje, dostupan je videosažetak koji se preporučuje.

Ali priča tu ne završava. Isti autori odlučili su ponovno pregledati openai/lm-human-preferences spremište iz 2019., koji je odigrao ključnu ulogu u finom podešavanju jezičnih modela na temelju ljudskih preferencija, koristeći PPO. Ovo spremište obilježilo je rani razvoj na ChatGPT. Nedavni post na blogu, "N Detalji implementacije RLHF-a s PPO-om”, pomno ponavlja OpenAIdjelo, ali koristi PyTorch i moderne biblioteke umjesto zastarjelog TensorFlowa. Ovaj je prijelaz došao s vlastitim nizom izazova, kao što su razlike u implementaciji Adam optimizatora između okvira, što je onemogućilo repliciranje obuke bez prilagodbi.

Možda je najintrigantniji aspekt ovog putovanja potraga za izvođenjem eksperimenata na određenim GPU postavkama kako bi se dobila originalna metrika i krivulje učenja. To je putovanje ispunjeno izazovima, od memorijskih ograničenja na različitim vrstama GPU-a do migracije OpenAI skupova podataka između skladišnih objekata.

Zaključno, istraživanje proksimalne optimizacije politike (PPO) u učenju potkrepljenja iz ljudskih povratnih informacija (RLHF) otkriva fascinantan svijet složenosti.

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Hot Stories
Pridružite se našem biltenu.
Najnovije vijesti

Institucionalni apetit raste prema Bitcoin ETF-ovima usred volatilnosti

Objave putem 13F prijava otkrivaju značajne institucionalne ulagače koji se upuštaju u Bitcoin ETF-ove, naglašavajući sve veće prihvaćanje ...

Znati više

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Prelazak Donalda Trumpa na kriptovalute: od protivnika do zagovornika i što to znači za američko tržište kriptovaluta
posao tržišta Priče i recenzije Tehnologija
Prelazak Donalda Trumpa na kriptovalute: od protivnika do zagovornika i što to znači za američko tržište kriptovaluta
Neka 10, 2024
Layer3 će lansirati L3 token ovog ljeta, dodjeljujući 51% ukupne ponude zajednici
tržišta Vijesti Tehnologija
Layer3 će lansirati L3 token ovog ljeta, dodjeljujući 51% ukupne ponude zajednici
Neka 10, 2024
Posljednje upozorenje Edwarda Snowdena programerima Bitcoina: Neka privatnost postane prioritet na razini protokola ili riskirate da je izgubite
tržišta Sigurnost Wiki softver Priče i recenzije Tehnologija
Posljednje upozorenje Edwarda Snowdena programerima Bitcoina: Neka privatnost postane prioritet na razini protokola ili riskirate da je izgubite
Neka 10, 2024
Optimism-powered Ethereum Layer 2 Network Mint lansirat će svoj Mainnet 15. svibnja
Vijesti Tehnologija
Optimism-powered Ethereum Layer 2 Network Mint lansirat će svoj Mainnet 15. svibnja
Neka 10, 2024
CRYPTOMERIA LABS PTE. LTD.