Ziņojums Tehnoloģija
Oktobris 27, 2023

Pētnieki atkārtoja OpenAIDarbs, kas balstīts uz proksimālās politikas optimizāciju (PPO) RLHF

Pastiprināšanas mācīšanās no cilvēka atgriezeniskās saites (RLHF) ir tādu apmācību sistēmu kā ChatGPT, un tā paļaujas uz specializētām metodēm, lai gūtu panākumus. Viena no šīm metodēm, proksimālās politikas optimizācija (PPO), sākotnēji bija iecerēts sienās OpenAI 2017. gadā. No pirmā acu uzmetiena PPO izcēlās ar solījumu par ieviešanas vienkāršību un salīdzinoši zemu hiperparametru skaitu, kas nepieciešami modeļa precizēšanai. Tomēr, kā saka, velns slēpjas detaļās.

Pētnieki atkārtoja OpenAIDarbs, kas balstīts uz proksimālās politikas optimizāciju (PPO) RLHF

Nesen tika publicēts emuāra ieraksts ar nosaukumu "Proksimālās politikas optimizācijas 37 ieviešanas informācija” atklāja PPO sarežģījumus (sagatavots ICLR konferencei). Nosaukums vien norāda uz izaicinājumiem, ar kuriem jāsaskaras, ieviešot šo it kā vienkāršo metodi. Pārsteidzoši, ka autoriem bija nepieciešami trīs gadi, lai savāktu visu nepieciešamo informāciju un reproducētu rezultātus.

Kods sadaļā OpenAI repozitorijā tika veiktas būtiskas izmaiņas starp versijām, daži aspekti palika neizskaidroti, un īpatnības, kas parādījās kā kļūdas, kaut kā radīja rezultātus. PPO sarežģītība kļūst acīmredzama, kad iedziļināties detaļās, un tiem, kurus interesē dziļa izpratne vai sevis pilnveidošana, ir pieejams ļoti ieteicams video kopsavilkums.

Bet ar to stāsts nebeidzas. Tie paši autori nolēma vēlreiz apmeklēt openai/lm-cilvēka preferenču krātuve no 2019. gada, kam bija izšķiroša loma valodu modeļu precizēšanā, pamatojoties uz cilvēku vēlmēm, izmantojot PPO. Šī krātuve iezīmēja agrīno attīstību ChatGPT. Nesenais emuāra ieraksts "N ieviešanas informācija par RLHF ar PPO”, cieši atkārto OpenAIdarbu, bet izmanto PyTorch un modernas bibliotēkas, nevis novecojušo TensorFlow. Šai pārejai bija savs izaicinājumu kopums, piemēram, atšķirības Adam optimizētāja ieviešanā starp ietvariem, padarot neiespējamu apmācību atkārtot bez pielāgojumiem.

Iespējams, ka šī ceļojuma intriģējošākais aspekts ir mēģinājums veikt eksperimentus ar konkrētiem GPU iestatījumiem, lai iegūtu oriģinālos rādītājus un mācīšanās līknes. Tas ir izaicinājumu pilns ceļojums, sākot no atmiņas ierobežojumiem dažādiem GPU veidiem un beidzot ar migrāciju OpenAI datu kopas starp krātuves iekārtām.

Visbeidzot, proksimālās politikas optimizācijas (PPO) izpēte pastiprināšanas mācībās no cilvēku atgriezeniskās saites (RLHF) atklāj aizraujošu sarežģījumu pasauli.

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Vairāk rakstus
Damirs Jalalovs
Damirs Jalalovs

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Hot Stories
Pievienojieties mūsu informatīvajam izdevumam.
Jaunākās ziņas

Nepastāvības apstākļos institucionālā apetīte pieaug pret Bitcoin ETF

Informācijas atklāšana, izmantojot 13F pieteikumus, atklāj ievērojamus institucionālos investorus, kas iesaistās Bitcoin ETF, uzsverot pieaugošo pieņemšanu ...

Uzziniet vairāk

Pienāk notiesāšanas diena: CZ liktenis ir līdzsvarā, jo ASV tiesa izskata DOJ lūgumu

Šodien ASV tiesā Sietlā Čanpens Džao ir gatavs notiesāt.

Uzziniet vairāk
Pievienojieties mūsu novatoriskajai tehnoloģiju kopienai
Lasīt vairāk
Vairāk
Over Protocol plāno atvērt savu galveno tīklu jūnijā, jo tā testtīkls piesaista vairāk nekā 750,000 XNUMX lietotāju
Ziņojums Tehnoloģija
Over Protocol plāno atvērt savu galveno tīklu jūnijā, jo tā testtīkls piesaista vairāk nekā 750,000 XNUMX lietotāju
13. gada 2024. maijs
Kriptogrāfijas apkarošana Krievijā tiek piedāvāta kā priekšlikums padarīt stingrākus noteikumus privātajiem kalnračiem
Domas Markets programmatūra Tehnoloģija
Kriptogrāfijas apkarošana Krievijā tiek piedāvāta kā priekšlikums padarīt stingrākus noteikumus privātajiem kalnračiem
13. gada 2024. maijs
Canaan's Avalon Miner A1566 ienes jauninājumus Bitcoin ieguvē ar 185 Thash/s un 18.5 J/T efektivitāti, pārejot laikmetā pēc sadalīšanas
intervija bizness Markets programmatūra Tehnoloģija
Canaan's Avalon Miner A1566 ienes jauninājumus Bitcoin ieguvē ar 185 Thash/s un 18.5 J/T efektivitāti, pārejot laikmetā pēc sadalīšanas
13. gada 2024. maijs
Blokķēdes inovācijas izmantošana: Vācija sper drosmīgu soli ceļā uz veselības aprūpes pārveidi un uzlabotu pacientu aprūpi
Dzīvesveids Markets programmatūra Stāsti un atsauksmes Tehnoloģija
Blokķēdes inovācijas izmantošana: Vācija sper drosmīgu soli ceļā uz veselības aprūpes pārveidi un uzlabotu pacientu aprūpi
13. gada 2024. maijs
CRYPTOMERIA LABS PTE. LTD.