Buletin de stiri Tehnologia
Octombrie 27, 2023

Cercetătorii au replicat OpenAILucrarea lui bazată pe optimizarea politicii proximale (PPO) în RLHF

Învățarea prin consolidare din feedbackul uman (RLHF) este o parte integrantă a sistemelor de formare precum ChatGPTși se bazează pe metode specializate pentru a obține succesul. Una dintre aceste metode, Proximal Policy Optimization (PPO), a fost inițial conceput între zidurile de OpenAI în 2017. La prima vedere, PPO s-a remarcat prin promisiunea de simplitate în implementare și un număr relativ scăzut de hiperparametri necesari pentru reglarea fină a modelului. Cu toate acestea, după cum se spune, diavolul este în detalii.

Cercetătorii au replicat OpenAILucrarea lui bazată pe optimizarea politicii proximale (PPO) în RLHF

Recent, o postare pe blog intitulată „Cele 37 de detalii de implementare a optimizării politicii proximale” a aruncat lumină asupra complexității PPO (pregătit pentru conferința ICLR). Numai numele indică provocările cu care se confruntă implementarea acestei metode presupuse simple. În mod uimitor, autorii au avut nevoie de trei ani pentru a aduna toate informațiile necesare și a reproduce rezultatele.

Codul din OpenAI depozitul a suferit modificări semnificative între versiuni, unele aspecte au rămas neexplicate, iar particularitățile care au apărut ca erori au produs cumva rezultate. Complexitatea PPO devine evidentă atunci când aprofundați în detalii, iar pentru cei interesați de o înțelegere profundă sau de auto-îmbunătățire, există un rezumat video foarte recomandat.

Dar povestea nu se termină aici. Aceiași autori au decis să revizuiască openai/lm-human-preferences depozit din 2019, care a jucat un rol crucial în ajustarea modelelor de limbaj bazate pe preferințele umane, folosind PPO. Acest depozit a marcat primele dezvoltări ChatGPT. Postarea recentă pe blog, „Detaliile N de implementare a RLHF cu PPO”, replică îndeaproape OpenAIlucrarea lui, dar folosește PyTorch și biblioteci moderne în loc de TensorFlow învechit. Această tranziție a venit cu propriul set de provocări, cum ar fi diferențele în implementarea optimizatorului Adam între cadre, făcând imposibilă replicarea antrenamentului fără ajustări.

Poate cel mai intrigant aspect al acestei călătorii este încercarea de a efectua experimente pe anumite configurații GPU pentru a obține valori originale și curbe de învățare. Este o călătorie plină de provocări, de la constrângerile de memorie asupra diferitelor tipuri de GPU până la migrarea OpenAI seturi de date între unitățile de stocare.

În concluzie, explorarea optimizării proximale a politicilor (PPO) în învățarea prin consolidare din feedbackul uman (RLHF) dezvăluie o lume fascinantă a complexităților.

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Side Protocol lansează Testnet stimulat și introduce sistemul de puncte Insider, permițând utilizatorilor să câștige puncte SIDE
pieţe Buletin de stiri Tehnologia
Side Protocol lansează Testnet stimulat și introduce sistemul de puncte Insider, permițând utilizatorilor să câștige puncte SIDE
9 Mai, 2024
Web3 și Evenimente Crypto în mai 2024: Explorarea noilor tehnologii și a tendințelor emergente în Blockchain și DeFi
rezumat Afaceri pieţe Tehnologia
Web3 și Evenimente Crypto în mai 2024: Explorarea noilor tehnologii și a tendințelor emergente în Blockchain și DeFi
9 Mai, 2024
Notcoin va fi lansat pe OKX Jumpstart, oferă 1.25% din totalul ofertei de jetoane pentru minerit
pieţe Buletin de stiri Tehnologia
Notcoin va fi lansat pe OKX Jumpstart, oferă 1.25% din totalul ofertei de jetoane pentru minerit
9 Mai, 2024
Puffer Finance își lansează rețeaua principală, îmbunătățește includerea operatorilor de noduri pentru descentralizarea rețelei
Buletin de stiri Tehnologia
Puffer Finance își lansează rețeaua principală, îmbunătățește includerea operatorilor de noduri pentru descentralizarea rețelei
9 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.