Novinová správa Technológia
Októbra 27, 2023

Replikovaní výskumníci OpenAI's Work Based on Proximal Policy Optimization (PPO) v RLHF

Posilňovacie učenie z ľudskej spätnej väzby (RLHF) je neoddeliteľnou súčasťou tréningových systémov ako napr ChatGPTa na dosiahnutie úspechu sa spolieha na špecializované metódy. Jedna z týchto metód, Proximal Policy Optimization (PPO), bola pôvodne koncipovaný medzi stenami OpenAI v roku 2017. PPO na prvý pohľad vynikal prísľubom jednoduchosti implementácie a relatívne nízkym počtom hyperparametrov potrebných na doladenie modelu. Ako sa však hovorí, diabol sa skrýva v detailoch.

Replikovaní výskumníci OpenAI's Work Based on Proximal Policy Optimization (PPO) v RLHF

Nedávno vyšiel blogový príspevok s názvom „37 podrobností o implementácii optimalizácie proximálnej politiky“ osvetlila zložitosť PPO (pripraveného na konferenciu ICLR). Už len názov naznačuje výzvy, ktorým čelíte pri implementácii tejto údajne priamočiarej metódy. Prekvapivo trvalo autorom tri roky, kým zhromaždili všetky potrebné informácie a reprodukovali výsledky.

Kód v OpenAI úložisko prešlo medzi verziami významnými zmenami, niektoré aspekty zostali nevysvetlené a zvláštnosti, ktoré sa objavili ako chyby, nejako priniesli výsledky. Zložitosť PPO sa ukáže, keď sa ponoríte do detailov, a pre tých, ktorí majú záujem o hlboké porozumenie alebo sebazdokonaľovanie, je k dispozícii vysoko odporúčané video zhrnutie.

Tým sa však príbeh nekončí. Tí istí autori sa rozhodli prehodnotiť openai/lm-human-preferences úložisko z roku 2019, ktorý zohral kľúčovú úlohu pri dolaďovaní jazykových modelov na základe ľudských preferencií pomocou PPO. Toto úložisko označilo raný vývoj ChatGPT. Nedávny blogový príspevok „Podrobnosti o implementácii N RLHF s PPO“, presne sa zopakuje OpenAI's, ale používa PyTorch a moderné knižnice namiesto zastaraného TensorFlow. Tento prechod prišiel s vlastným súborom výziev, ako sú rozdiely v implementácii optimalizátora Adam medzi rámcami, čo znemožňuje replikáciu tréningu bez úprav.

Snáď najzaujímavejším aspektom tejto cesty je snaha spustiť experimenty na konkrétnych nastaveniach GPU s cieľom získať originálne metriky a krivky učenia. Je to cesta plná výziev, od pamäťových obmedzení na rôznych typoch GPU až po migráciu OpenAI množiny údajov medzi úložnými zariadeniami.

Na záver, prieskum optimalizácie proximálnej politiky (PPO) v oblasti posilňovania učenia sa z ľudskej spätnej väzby (RLHF) odhaľuje fascinujúci svet zložitosti.

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Crypto Exchange OKX uvádza notcoiny, pričom 16. mája zavedie spotové obchodovanie s párom NOT-USDT
trhy Novinová správa Technológia
Crypto Exchange OKX uvádza notcoiny, pričom 16. mája zavedie spotové obchodovanie s párom NOT-USDT  
Môže 10, 2024
Blast spúšťa tretiu udalosť distribúcie zlata Blast, prideľuje 15 miliónov bodov DApps
trhy Novinová správa Technológia
Blast spúšťa tretiu udalosť distribúcie zlata Blast, prideľuje 15 miliónov bodov DApps
Môže 10, 2024
Espresso Systems spolupracuje s polygonovými laboratóriami na vývoji AggLayer pre zlepšenie súhrnnej interoperability
firmy Novinová správa Technológia
Espresso Systems spolupracuje s polygonovými laboratóriami na vývoji AggLayer pre zlepšenie súhrnnej interoperability
Môže 9, 2024
Infraštruktúrny protokol založený na ZKP ZKBase odhaľuje cestovnú mapu, plánuje spustenie Testnetu v máji
Novinová správa Technológia
Infraštruktúrny protokol založený na ZKP ZKBase odhaľuje cestovnú mapu, plánuje spustenie Testnetu v máji
Môže 9, 2024
CRYPTOMERIA LABS PTE. LTD.