Forskare replikerade OpenAI's arbete baserat på proximal policyoptimering (PPO) i RLHF
Förstärkning Att lära av mänsklig feedback (RLHF) är en integrerad del av träningssystem som ChatGPT, och det förlitar sig på specialiserade metoder för att nå framgång. En av dessa metoder, Proximal Policy Optimization (PPO), var ursprungligen uttänkt inom murarna av OpenAI under 2017. Vid första anblicken stod PPO ut för sitt löfte om enkel implementering och ett relativt litet antal hyperparametrar som krävs för att finjustera modellen. Men, som de säger, djävulen ligger i detaljerna.
Nyligen publicerades ett blogginlägg med titeln "De 37 implementeringsdetaljerna för proximal policyoptimering” kastade ljus över krångligheterna med PPO (förberedd för ICLR-konferensen). Bara namnet antyder de utmaningar som ställs inför att implementera denna förment enkla metod. Förvånansvärt nog tog det författarna tre år att samla in all nödvändig information och återskapa resultaten.
Koden i OpenAI arkivet genomgick betydande förändringar mellan versionerna, vissa aspekter lämnades oförklarade och egenheter som dök upp som buggar gav på något sätt resultat. Komplexiteten i PPO blir uppenbar när du fördjupar dig i detaljerna, och för dem som är intresserade av en djup förståelse eller självförbättring finns en starkt rekommenderad videosammanfattning tillgänglig.
Men historien slutar inte där. Samma författare beslutade att återbesöka openai/lm-human-preferences repository från 2019, som spelade en avgörande roll för att finjustera språkmodeller baserade på mänskliga preferenser, med hjälp av PPO. Detta förvar markerade den tidiga utvecklingen på ChatGPT. Det senaste blogginlägget, "N-implementeringsdetaljerna för RLHF med PPO", replikerar nära OpenAIfungerar men använder PyTorch och moderna bibliotek istället för det föråldrade TensorFlow. Denna övergång kom med sin egen uppsättning utmaningar, såsom skillnader i implementeringen av Adam optimizer mellan ramverk, vilket gjorde det omöjligt att replikera träning utan justeringar.
Den kanske mest spännande aspekten av den här resan är strävan att köra experiment på specifika GPU-inställningar för att få ursprungliga mätvärden och inlärningskurvor. Det är en resa fylld av utmaningar, från minnesbegränsningar på olika GPU-typer till migreringen av OpenAI datauppsättningar mellan lagringsanläggningar.
Sammanfattningsvis avslöjar utforskningen av Proximal Policy Optimization (PPO) i Reinforcement Learning from Human Feedback (RLHF) en fascinerande värld av komplexitet.
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.
fler artiklarDamir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.