Uudiste reportaaž Tehnoloogia
Oktoober 27, 2023

Teadlased kordasid OpenAIRLHF-i proksimaalpoliitika optimeerimisel (PPO) põhinev töö

Inimtagasisisest õppimine (RLHF) on selliste koolitussüsteemide lahutamatu osa nagu ChatGPTja see tugineb edu saavutamiseks spetsiaalsetele meetoditele. Üks neist meetoditest, proksimaalne poliitika optimeerimine (PPO), oli algselt eostatud seinte vahel OpenAI 2017. aastal. Esmapilgul paistis PPO silma oma lubaduse poolest, et rakendus lihtsus ja mudeli peenhäälestamiseks vajalike hüperparameetrite arv on suhteliselt väike. Kuid nagu öeldakse, kurat peitub detailides.

Teadlased kordasid OpenAIRLHF-i proksimaalpoliitika optimeerimisel (PPO) põhinev töö

Hiljuti ilmus blogipostitus pealkirjaga "Proksimaalse poliitika optimeerimise 37 rakendamise üksikasju” heitis valgust PPO (valminud ICLR konverentsiks) keerukusele. Ainuüksi nimi vihjab väljakutsetele, millega selle väidetavalt lihtsa meetodi rakendamisel silmitsi seisate. Hämmastaval kombel kulus autoritel kogu vajaliku teabe kogumiseks ja tulemuste taasesitamiseks kolm aastat.

Kood failis OpenAI hoidlas tehti versioonide vahel olulisi muudatusi, mõned aspektid jäid selgitamata ja vigadena ilmnenud iseärasused andsid kuidagi tulemusi. PPO keerukus ilmneb üksikasjadesse süvenedes ja neile, kes on huvitatud sügavast mõistmisest või enesetäiendamisest, on saadaval väga soovitatav videokokkuvõte.

Kuid lugu sellega ei lõpe. Samad autorid otsustasid uuesti läbi vaadata openai/lm-inimeste eelistuste hoidla aastast 2019, mis mängis PPO abil üliolulist rolli inimese eelistustel põhinevate keelemudelite peenhäälestamisel. See hoidla tähistas varaseid arenguid ChatGPT. Hiljutine ajaveebi postitus "RLHF-i N rakendamise üksikasjad koos PPO-ga,” kordab täpselt OpenAItöötab, kuid kasutab vananenud TensorFlow asemel PyTorchi ja kaasaegseid teeke. Selle üleminekuga kaasnesid omad väljakutsed, nagu erinevused Adami optimeerija rakendamisel raamistike vahel, mistõttu oli koolituse kordamine ilma kohandusteta võimatu.

Võib-olla on selle teekonna kõige intrigeerivam aspekt katse käivitada konkreetsete GPU seadistustega, et saada originaalsed mõõdikud ja õppimiskõverad. See on teekond, mis on täis väljakutseid, alates erinevate GPU tüüpide mälupiirangutest kuni GPU-de migratsioonini OpenAI andmekogud salvestusseadmete vahel.

Kokkuvõtteks võib öelda, et proksimaalse poliitika optimeerimise (PPO) uurimine inimeste tagasisidest õppimise tugevdamises (RLHF) paljastab põneva keerukuse maailma.

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Veel artikleid
Damir Jalalov
Damir Jalalov

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Institutsionaalne isu kasvab volatiilsuse tõttu Bitcoini ETF-ide poole

13F-i dokumentide kaudu avaldatud teave paljastab märkimisväärsed institutsionaalsed investorid, kes tegelevad Bitcoini ETF-idega, rõhutades, et ...

Rohkem teada

Karistuspäev saabub: CZ saatus on tasakaalus, kuna USA kohus võtab DOJ palvet arvesse

Changpeng Zhao ootab täna ees kohtuotsus USA Seattle'i kohtus.

Rohkem teada
Liituge meie uuendusliku tehnikakogukonnaga
Loe rohkem
Loe edasi
Donald Trumpi üleminek krüptotehnoloogiale: vastasest advokaadiks ja mida see USA krüptovaluutaturu jaoks tähendab
Äri turud Lood ja ülevaated Tehnoloogia
Donald Trumpi üleminek krüptotehnoloogiale: vastasest advokaadiks ja mida see USA krüptovaluutaturu jaoks tähendab
Võib 10 2024
Layer3 toob sel suvel turule L3 märgi, mis eraldab kogukonnale 51% kogupakkumisest
turud Uudiste reportaaž Tehnoloogia
Layer3 toob sel suvel turule L3 märgi, mis eraldab kogukonnale 51% kogupakkumisest
Võib 10 2024
Edward Snowdeni viimane hoiatus Bitcoini arendajatele: "Muutke privaatsus protokolli tasemel prioriteediks või riskige selle kaotamisega
turud TURVALISUS Wiki tarkvara Lood ja ülevaated Tehnoloogia
Edward Snowdeni viimane hoiatus Bitcoini arendajatele: "Muutke privaatsus protokolli tasemel prioriteediks või riskige selle kaotamisega
Võib 10 2024
Optimismi jõul töötav Ethereum Layer 2 Network Mint käivitab oma põhivõrgu 15. mail
Uudiste reportaaž Tehnoloogia
Optimismi jõul töötav Ethereum Layer 2 Network Mint käivitab oma põhivõrgu 15. mail
Võib 10 2024
CRYPTOMERIA LABS PTE. LTD.