Novice Tehnologija
Oktober 27, 2023

Raziskovalci ponovili OpenAIDelo uporabnika temelji na optimizaciji proksimalne politike (PPO) v RLHF

Okrepitveno učenje iz človeških povratnih informacij (RLHF) je sestavni del sistemov usposabljanja, kot je ChatGPT, za doseganje uspeha pa se opira na specializirane metode. Ena od teh metod, optimizacija proksimalne politike (PPO), je bila prvotno zasnovani znotraj zidov OpenAI leta 2017. Na prvi pogled je PPO izstopal po svoji obljubi enostavnosti implementacije in relativno majhnem številu hiperparametrov, potrebnih za natančno nastavitev modela. Vendar, kot pravijo, hudič je v podrobnostih.

Raziskovalci ponovili OpenAIDelo uporabnika temelji na optimizaciji proksimalne politike (PPO) v RLHF

Pred kratkim je bila objava v spletnem dnevniku z naslovom "37 podrobnosti o izvajanju proksimalne optimizacije politike” osvetlila zapletenost PPO (pripravljeno za konferenco ICLR). Že samo ime namiguje na izzive, s katerimi se soočamo pri izvajanju te domnevno enostavne metode. Presenetljivo je, da so avtorji potrebovali tri leta, da so zbrali vse potrebne informacije in reproducirali rezultate.

Koda v OpenAI Repozitorij je med različicami doživel pomembne spremembe, nekateri vidiki so ostali nepojasnjeni, posebnosti, ki so se pojavile kot hrošči, pa so nekako dale rezultate. Kompleksnost PPO postane očitna, ko se poglobite v podrobnosti, in za tiste, ki jih zanima globoko razumevanje ali samoizboljšanje, je na voljo zelo priporočljiv video povzetek.

A zgodba se tu ne konča. Isti avtorji so se odločili ponovno pregledati openai/lm-human-preferences repozitorij iz leta 2019, ki je igral ključno vlogo pri natančnem prilagajanju jezikovnih modelov na podlagi človeških preferenc z uporabo PPO. To skladišče je zaznamovalo zgodnji razvoj ChatGPT. Nedavna objava v spletnem dnevniku, "Podrobnosti o izvedbi N RLHF s PPO,« natančno ponavlja OpenAIdelo, vendar uporablja PyTorch in sodobne knjižnice namesto zastarelega TensorFlow. Ta prehod je prišel s svojim naborom izzivov, kot so razlike v izvajanju optimizatorja Adam med ogrodji, zaradi česar je bilo nemogoče ponoviti usposabljanje brez prilagoditev.

Morda je najbolj zanimiv vidik tega potovanja iskanje izvajanja poskusov na določenih nastavitvah GPU, da bi pridobili izvirne meritve in krivulje učenja. To je potovanje, polno izzivov, od pomnilniških omejitev na različnih vrstah grafičnih procesorjev do migracije OpenAI podatkovnih nizov med prostori za shranjevanje.

Za zaključek, raziskovanje proksimalne optimizacije politike (PPO) v okrepitvenem učenju iz človeških povratnih informacij (RLHF) razkriva fascinanten svet zapletenosti.

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Prehod Donalda Trumpa na kripto: od nasprotnika do zagovornika in kaj to pomeni za ameriški trg kriptovalut
ŽELITE POSTATI PARTNER Prisotnost Zgodbe in ocene Tehnologija
Prehod Donalda Trumpa na kripto: od nasprotnika do zagovornika in kaj to pomeni za ameriški trg kriptovalut
Maj 10, 2024
Layer3 bo lansiral žeton L3 to poletje in 51 % celotne ponudbe namenil skupnosti
Prisotnost Novice Tehnologija
Layer3 bo lansiral žeton L3 to poletje in 51 % celotne ponudbe namenil skupnosti
Maj 10, 2024
Zadnje opozorilo Edwarda Snowdna razvijalcem bitcoinov: »Naj bo zasebnost prednostna naloga na ravni protokola ali pa tvegajte, da jo izgubite
Prisotnost Varnost Wiki Software Zgodbe in ocene Tehnologija
Zadnje opozorilo Edwarda Snowdna razvijalcem bitcoinov: »Naj bo zasebnost prednostna naloga na ravni protokola ali pa tvegajte, da jo izgubite
Maj 10, 2024
Omrežna kovnica Ethereum Layer 2, ki jo poganja optimizem, bo svojo glavno mrežo predstavila 15. maja
Novice Tehnologija
Omrežna kovnica Ethereum Layer 2, ki jo poganja optimizem, bo svojo glavno mrežo predstavila 15. maja
Maj 10, 2024
CRYPTOMERIA LABS PTE. LTD.