Nyheds rapport Teknologier
Oktober 27, 2023

Forskere replikeret OpenAI's arbejde baseret på proksimal politikoptimering (PPO) i RLHF

Forstærkning Learning from Human Feedback (RLHF) er en integreret del af træningssystemer som f.eks ChatGPT, og den er afhængig af specialiserede metoder for at opnå succes. En af disse metoder, Proximal Policy Optimization (PPO), var oprindeligt undfanget inden for murene af OpenAI i 2017. Ved første øjekast skilte PPO sig ud for sit løfte om enkelhed i implementeringen og et relativt lavt antal hyperparametre, der kræves for at finjustere modellen. Men som de siger, er djævelen i detaljerne.

Forskere replikeret OpenAI's arbejde baseret på proksimal politikoptimering (PPO) i RLHF

For nylig har et blogindlæg med titlen "De 37 implementeringsdetaljer for proksimal politikoptimering” kaste lys over forviklingerne ved PPO (forberedt til ICLR-konferencen). Alene navnet antyder de udfordringer, man står over for i forbindelse med implementeringen af ​​denne formodede ligetil metode. Forbløffende nok tog det forfatterne tre år at indsamle al den nødvendige information og gengive resultaterne.

Koden i OpenAI repository undergik betydelige ændringer mellem versioner, nogle aspekter blev efterladt uforklarlige, og ejendommeligheder, der optrådte som fejl, gav resultater. Kompleksiteten af ​​PPO bliver tydelig, når du dykker ned i detaljerne, og for dem, der er interesseret i en dyb forståelse eller selvforbedring, er der et stærkt anbefalet videoresumé tilgængeligt.

Men historien slutter ikke der. De samme forfattere besluttede at gense openai/lm-human-preferences repository fra 2019, som spillede en afgørende rolle i at finjustere sprogmodeller baseret på menneskelige præferencer ved hjælp af PPO. Dette depot markerede den tidlige udvikling på ChatGPT. Det seneste blogindlæg, "N-implementeringsdetaljerne for RLHF med PPO", replikerer tæt OpenAI's arbejde, men bruger PyTorch og moderne biblioteker i stedet for det forældede TensorFlow. Denne overgang kom med sit eget sæt af udfordringer, såsom forskelle i implementeringen af ​​Adam optimizer mellem frameworks, hvilket gjorde det umuligt at replikere træning uden justeringer.

Det måske mest spændende aspekt af denne rejse er søgen efter at køre eksperimenter på specifikke GPU-opsætninger for at opnå originale målinger og indlæringskurver. Det er en rejse fyldt med udfordringer, fra hukommelsesbegrænsninger på forskellige GPU-typer til migrering af OpenAI datasæt mellem lagerfaciliteter.

Afslutningsvis afslører udforskningen af ​​Proximal Policy Optimization (PPO) i Reinforcement Learning from Human Feedback (RLHF) en fascinerende verden af ​​kompleksitet.

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Institutionel appetit vokser mod Bitcoin ETF'er midt i volatilitet

Afsløringer gennem 13F-arkivering afslører bemærkelsesværdige institutionelle investorer, der dytter i Bitcoin ETF'er, hvilket understreger en voksende accept af ...

Vide mere

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Side Protocol lancerer incitamenteret testnet og introducerer Insider Point System, der gør det muligt for brugere at optjene SIDE Points
Markeder Nyheds rapport Teknologier
Side Protocol lancerer incitamenteret testnet og introducerer Insider Point System, der gør det muligt for brugere at optjene SIDE Points
Maj 9, 2024
Web3 og kryptobegivenheder i maj 2024: Udforskning af nye teknologier og nye tendenser i Blockchain og DeFi
Fordøje Forretning Markeder Teknologier
Web3 og kryptobegivenheder i maj 2024: Udforskning af nye teknologier og nye tendenser i Blockchain og DeFi
Maj 9, 2024
Notcoin til at lancere på OKX Jumpstart, tilbyder 1.25% af den samlede tokenforsyning til minedrift
Markeder Nyheds rapport Teknologier
Notcoin til at lancere på OKX Jumpstart, tilbyder 1.25% af den samlede tokenforsyning til minedrift
Maj 9, 2024
Puffer Finance lancerer sit mainnet, forbedrer inklusion af nodeoperatører til netværksdecentralisering
Nyheds rapport Teknologier
Puffer Finance lancerer sit mainnet, forbedrer inklusion af nodeoperatører til netværksdecentralisering
Maj 9, 2024