Oktoober 27, 2023

Teadlased kordasid OpenAIRLHF-i proksimaalpoliitika optimeerimisel (PPO) põhinev töö

Avaldatud: 27. oktoober 2023 kell 8:56 Värskendatud: 27. oktoober 2023 kell 8:56

Muudetud ja faktide alusel kontrollitud: 27. oktoober 2023, kell 8:56

Inimtagasisisest õppimine (RLHF) on selliste koolitussüsteemide lahutamatu osa nagu ChatGPTja see tugineb edu saavutamiseks spetsiaalsetele meetoditele. Üks neist meetoditest, proksimaalne poliitika optimeerimine (PPO), oli algselt eostatud seinte vahel OpenAI 2017. aastal. Esmapilgul paistis PPO silma oma lubaduse poolest, et rakendus lihtsus ja mudeli peenhäälestamiseks vajalike hüperparameetrite arv on suhteliselt väike. Kuid nagu öeldakse, kurat peitub detailides.

Teadlased kordasid OpenAIRLHF-i proksimaalpoliitika optimeerimisel (PPO) põhinev töö

Hiljuti ilmus blogipostitus pealkirjaga "Proksimaalse poliitika optimeerimise 37 rakendamise üksikasju” heitis valgust PPO (valminud ICLR konverentsiks) keerukusele. Ainuüksi nimi vihjab väljakutsetele, millega selle väidetavalt lihtsa meetodi rakendamisel silmitsi seisate. Hämmastaval kombel kulus autoritel kogu vajaliku teabe kogumiseks ja tulemuste taasesitamiseks kolm aastat.

Kas teil on olnud raskusi tensorflow 1.x koodi sisselugemisega? openai/baselines' PPO?

Meie ajaveebipostitus aitab teil mõista *kõike* selles sisalduvat

1) 🎥 videoõpetused
2) 📜 üksikasjalikud viited ja selgitused
3) ⌨️ väga lihtne kood

See töö võttis mul aega 3 aastat. 2/32 pic.twitter.com/w5jpQZkD6L
— Costa Huang (@vwxyzjn) Aprill 25, 2022

Kood failis OpenAI hoidlas tehti versioonide vahel olulisi muudatusi, mõned aspektid jäid selgitamata ja vigadena ilmnenud iseärasused andsid kuidagi tulemusi. PPO keerukus ilmneb üksikasjadesse süvenedes ja neile, kes on huvitatud sügavast mõistmisest või enesetäiendamisest, on saadaval väga soovitatav videokokkuvõte.

Kuid lugu sellega ei lõpe. Samad autorid otsustasid uuesti läbi vaadata openai/lm-inimeste eelistuste hoidla aastast 2019, mis mängis PPO abil üliolulist rolli inimese eelistustel põhinevate keelemudelite peenhäälestamisel. See hoidla tähistas varaseid arenguid ChatGPT. Hiljutine ajaveebi postitus "RLHF-i N rakendamise üksikasjad koos PPO-ga,” kordab täpselt OpenAItöötab, kuid kasutab vananenud TensorFlow asemel PyTorchi ja kaasaegseid teeke. Selle üleminekuga kaasnesid omad väljakutsed, nagu erinevused Adami optimeerija rakendamisel raamistike vahel, mistõttu oli koolituse kordamine ilma kohandusteta võimatu.

1. (kõige huvitavam) TF-il ja PT-l on erinev Adam optimeerija impl ja need mõjutavad jõudlust. Eelkõige toodab PT adam treeningu alguses agressiivsemaid uuendusi. pic.twitter.com/lJ99KTmD8M
— Costa Huang (@vwxyzjn) Oktoober 24, 2023

Võib-olla on selle teekonna kõige intrigeerivam aspekt katse käivitada konkreetsete GPU seadistustega, et saada originaalsed mõõdikud ja õppimiskõverad. See on teekond, mis on täis väljakutseid, alates erinevate GPU tüüpide mälupiirangutest kuni GPU-de migratsioonini OpenAI andmekogud salvestusseadmete vahel.

Kokkuvõtteks võib öelda, et proksimaalse poliitika optimeerimise (PPO) uurimine inimeste tagasisidest õppimise tugevdamises (RLHF) paljastab põneva keerukuse maailma.

Sildid:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.

Veel artikleid

Damir Jalalov