Tudósítást Technológia
Október 27, 2023

A kutatók megismételték OpenAIAz RLHF proximális irányelv-optimalizálásán (PPO) alapuló munkája

Az emberi visszajelzésből való tanulás megerősítése (RLHF) olyan képzési rendszerek szerves része, mint pl ChatGPT, és speciális módszerekre támaszkodik a siker elérése érdekében. E módszerek egyike, a Proximal Policy Optimization (PPO) kezdetben az volt megfogant falai között OpenAI 2017-ben. A PPO első pillantásra kitűnt a megvalósítás egyszerűségének ígéretével és a modell finomhangolásához szükséges hiperparaméterek viszonylag alacsony számával. Azonban ahogy mondani szokás, az ördög a részletekben rejlik.

A kutatók megismételték OpenAIAz RLHF proximális irányelv-optimalizálásán (PPO) alapuló munkája

Nemrég megjelent egy blogbejegyzés a következő címmel:A proximális házirend-optimalizálás 37 megvalósítási részlete” rávilágított a PPO fortélyaira (az ICLR konferenciára készült). Már a név is utal arra, hogy milyen kihívásokkal kell szembenézni ennek az egyszerűnek tűnő módszernek a megvalósítása során. Meglepő módon a szerzőknek három évbe telt, mire összeszedték az összes szükséges információt és reprodukálták az eredményeket.

A kód a OpenAI A repository jelentős változásokon ment keresztül a verziók között, néhány szempont tisztázatlan maradt, és a hibaként megjelenő sajátosságok valahogy eredményt hoztak. A PPO összetettsége nyilvánvalóvá válik, ha belemélyed a részletekbe, és azok számára, akik érdeklődnek a mélyreható megértés vagy önfejlesztés iránt, elérhető egy erősen ajánlott videós összefoglaló.

De a történet ezzel nem ér véget. Ugyanezek a szerzők úgy döntöttek, hogy újra átnézik a openai/lm-human-preferences repository 2019-től, amely döntő szerepet játszott az emberi preferenciákon alapuló nyelvi modellek PPO segítségével történő finomhangolásában. Ez az adattár jelezte a korai fejlesztéseket ChatGPT. A legutóbbi blogbejegyzés: "Az RLHF N megvalósítási részletei a PPO-val” – ismétli szorosan OpenAIműködik, de PyTorch-ot és modern könyvtárakat használ az elavult TensorFlow helyett. Ez az átállás saját kihívásokkal járt, mint például az Adam-optimalizáló megvalósításának különbségei a keretrendszerek között, ami lehetetlenné tette a képzés módosítások nélküli megismétlését.

Ennek az utazásnak talán a legérdekesebb aspektusa az a törekvés, hogy kísérleteket hajtsunk végre meghatározott GPU-beállításokon, hogy eredeti mutatókat és tanulási görbéket kapjunk. Ez egy kihívásokkal teli utazás, a különböző GPU-típusok memóriakorlátaitól a GPU-k migrálásáig OpenAI adatkészletek a tárolóhelyek között.

Összefoglalva, a Proximal Policy Optimization (PPO) feltárása az emberi visszajelzésekből való tanulás megerősítésében (RLHF) a komplexitások lenyűgöző világát tárja fel.

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Az Over Protocol júniusban tervezi elindítani a hálózatát, mivel a teszthálózat több mint 750,000 XNUMX felhasználót vonz
Tudósítást Technológia
Az Over Protocol júniusban tervezi elindítani a hálózatát, mivel a teszthálózat több mint 750,000 XNUMX felhasználót vonz
May 13, 2024
Jön a kriptográfia elleni fellépés Oroszországban, mint a magánbányászokra vonatkozó szabályozás szigorítására irányuló javaslat
Vélemény piacok szoftver Technológia
Jön a kriptográfia elleni fellépés Oroszországban, mint a magánbányászokra vonatkozó szabályozás szigorítására irányuló javaslat
May 13, 2024
A Canaan's Avalon Miner A1566 innovációt hoz a Bitcoin bányászatba 185 Thash/s és 18.5 J/T hatékonysággal a felezés utáni korszakban
Interjú üzleti piacok szoftver Technológia
A Canaan's Avalon Miner A1566 innovációt hoz a Bitcoin bányászatba 185 Thash/s és 18.5 J/T hatékonysággal a felezés utáni korszakban
May 13, 2024
A blokklánc-innováció hasznosítása: Németország merész lépést tesz az egészségügyi átalakítás és a fokozott betegellátás felé
Életmód piacok szoftver Történetek és vélemények Technológia
A blokklánc-innováció hasznosítása: Németország merész lépést tesz az egészségügyi átalakítás és a fokozott betegellátás felé
May 13, 2024
CRYPTOMERIA LABS PTE. KFT.