Nyhetsrapport Teknologi
Oktober 27, 2023

Forskare replikerade OpenAI's arbete baserat på proximal policyoptimering (PPO) i RLHF

Förstärkning Att lära av mänsklig feedback (RLHF) är en integrerad del av träningssystem som ChatGPT, och det förlitar sig på specialiserade metoder för att nå framgång. En av dessa metoder, Proximal Policy Optimization (PPO), var ursprungligen uttänkt inom murarna av OpenAI under 2017. Vid första anblicken stod PPO ut för sitt löfte om enkel implementering och ett relativt litet antal hyperparametrar som krävs för att finjustera modellen. Men, som de säger, djävulen ligger i detaljerna.

Forskare replikerade OpenAI's arbete baserat på proximal policyoptimering (PPO) i RLHF

Nyligen publicerades ett blogginlägg med titeln "De 37 implementeringsdetaljerna för proximal policyoptimering” kastade ljus över krångligheterna med PPO (förberedd för ICLR-konferensen). Bara namnet antyder de utmaningar som ställs inför att implementera denna förment enkla metod. Förvånansvärt nog tog det författarna tre år att samla in all nödvändig information och återskapa resultaten.

Koden i OpenAI arkivet genomgick betydande förändringar mellan versionerna, vissa aspekter lämnades oförklarade och egenheter som dök upp som buggar gav på något sätt resultat. Komplexiteten i PPO blir uppenbar när du fördjupar dig i detaljerna, och för dem som är intresserade av en djup förståelse eller självförbättring finns en starkt rekommenderad videosammanfattning tillgänglig.

Men historien slutar inte där. Samma författare beslutade att återbesöka openai/lm-human-preferences repository från 2019, som spelade en avgörande roll för att finjustera språkmodeller baserade på mänskliga preferenser, med hjälp av PPO. Detta förvar markerade den tidiga utvecklingen på ChatGPT. Det senaste blogginlägget, "N-implementeringsdetaljerna för RLHF med PPO", replikerar nära OpenAIfungerar men använder PyTorch och moderna bibliotek istället för det föråldrade TensorFlow. Denna övergång kom med sin egen uppsättning utmaningar, såsom skillnader i implementeringen av Adam optimizer mellan ramverk, vilket gjorde det omöjligt att replikera träning utan justeringar.

Den kanske mest spännande aspekten av den här resan är strävan att köra experiment på specifika GPU-inställningar för att få ursprungliga mätvärden och inlärningskurvor. Det är en resa fylld av utmaningar, från minnesbegränsningar på olika GPU-typer till migreringen av OpenAI datauppsättningar mellan lagringsanläggningar.

Sammanfattningsvis avslöjar utforskningen av Proximal Policy Optimization (PPO) i Reinforcement Learning from Human Feedback (RLHF) en fascinerande värld av komplexitet.

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Institutionell aptit växer mot Bitcoin ETFs mitt i volatilitet

Avslöjande genom 13F-anmälningar avslöjar anmärkningsvärda institutionella investerare som sysslar med Bitcoin ETF:er, vilket understryker en växande acceptans av ...

Lär dig mer

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Over Protocol planerar att lansera sitt huvudnät i juni eftersom dess testnät lockar över 750,000 XNUMX användare
Nyhetsrapport Teknologi
Over Protocol planerar att lansera sitt huvudnät i juni eftersom dess testnät lockar över 750,000 XNUMX användare
Maj 13, 2024
Åtgärder mot krypto i Ryssland kommer som ett förslag för att skärpa reglerna för privata gruvarbetare
Yttrande Marknader Mjukvara Teknologi
Åtgärder mot krypto i Ryssland kommer som ett förslag för att skärpa reglerna för privata gruvarbetare
Maj 13, 2024
Canaans Avalon Miner A1566 ger innovation till Bitcoin Mining med 185 Thash/s och 18.5J/T effektivitet medan du navigerar efter en era efter halvering
Intervju Företag Marknader Mjukvara Teknologi
Canaans Avalon Miner A1566 ger innovation till Bitcoin Mining med 185 Thash/s och 18.5J/T effektivitet medan du navigerar efter en era efter halvering
Maj 13, 2024
Utnyttja Blockchain-innovation: Tyskland tar ett djärvt steg mot sjukvårdsomvandling och förbättrad patientvård
Livsstil Marknader Mjukvara Berättelser och recensioner Teknologi
Utnyttja Blockchain-innovation: Tyskland tar ett djärvt steg mot sjukvårdsomvandling och förbättrad patientvård
Maj 13, 2024