Nieuwsverslag Technologie
27 oktober 2023

Onderzoekers gerepliceerd OpenAI's werk gebaseerd op proximale beleidsoptimalisatie (PPO) in RLHF

Reinforcement Learning from Human Feedback (RLHF) is een integraal onderdeel van trainingssystemen zoals ChatGPT, en het vertrouwt op gespecialiseerde methoden om succes te behalen. Eén van deze methoden, Proximal Policy Optimization (PPO), was aanvankelijk bedacht binnen de muren van OpenAI in 2017. Op het eerste gezicht viel PPO op door zijn belofte van eenvoud in de implementatie en een relatief laag aantal hyperparameters dat nodig was om het model te verfijnen. Maar zoals ze zeggen: de duivel zit in de details.

Onderzoekers gerepliceerd OpenAI's werk gebaseerd op proximale beleidsoptimalisatie (PPO) in RLHF

Onlangs verscheen er een blogpost met de titel “De 37 implementatiedetails van proximale beleidsoptimalisatie” werpt licht op de fijne kneepjes van PPO (voorbereid voor de ICLR-conferentie). De naam alleen al verwijst naar de uitdagingen waarmee u te maken krijgt bij het implementeren van deze zogenaamd eenvoudige methode. Verbazingwekkend genoeg kostte het de auteurs drie jaar om alle benodigde informatie te verzamelen en de resultaten te reproduceren.

De code in de OpenAI repository onderging significante veranderingen tussen versies, sommige aspecten bleven onverklaard, en eigenaardigheden die als bugs verschenen, leverden op de een of andere manier resultaten op. De complexiteit van PPO wordt duidelijk als je je verdiept in de details, en voor degenen die geïnteresseerd zijn in een diepgaand begrip of zelfverbetering, is er een sterk aanbevolen video-samenvatting beschikbaar.

Maar daar eindigt het verhaal niet. Dezelfde auteurs besloten het opnieuw te bekijken openai/lm-human-preferences-opslagplaats uit 2019, dat een cruciale rol speelde bij het verfijnen van taalmodellen op basis van menselijke voorkeuren, met behulp van PPO. Deze repository markeerde de eerste ontwikkelingen ChatGPT. De recente blogpost: “De N-implementatiedetails van RLHF met PPO”, repliceert nauw OpenAI's werk, maar gebruikt PyTorch en moderne bibliotheken in plaats van het verouderde TensorFlow. Deze transitie bracht zijn eigen uitdagingen met zich mee, zoals verschillen in de implementatie van de Adam-optimizer tussen frameworks, waardoor het onmogelijk werd om training zonder aanpassingen te repliceren.

Misschien wel het meest intrigerende aspect van deze reis is de zoektocht om experimenten uit te voeren op specifieke GPU-opstellingen om originele statistieken en leercurves te verkrijgen. Het is een reis vol uitdagingen, van geheugenbeperkingen op verschillende GPU-typen tot de migratie van OpenAI datasets tussen opslagfaciliteiten.

Concluderend onthult de verkenning van Proximal Policy Optimization (PPO) in Reinforcement Learning from Human Feedback (RLHF) een fascinerende wereld van complexiteit.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Hot Stories
Schrijf je in op onze nieuwsbrief.
Laatste Nieuws

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Crypto Exchange Jupiter introduceert Jupiter Swap V3, Dynamic Slippage, naast andere belangrijke updates in de komende weken
markten Nieuwsverslag Technologie
Crypto Exchange Jupiter introduceert Jupiter Swap V3, Dynamic Slippage, naast andere belangrijke updates in de komende weken
14 June 2024
Polygon introduceert zijn governance-hub, die een uniforme, transparante interface biedt voor gemeenschapsbestuur
Nieuwsverslag Technologie
Polygon introduceert zijn governance-hub, die een uniforme, transparante interface biedt voor gemeenschapsbestuur 
14 June 2024
Binance registreert meer dan 30 miljoen nieuwe gebruikers in 2024, klantenactiva overschrijden de mijlpaal van $100 miljard
markten Nieuwsverslag Technologie
Binance registreert meer dan 30 miljoen nieuwe gebruikers in 2024, klantenactiva overschrijden de mijlpaal van $100 miljard
14 June 2024
Amazon ondersteunt generatieve AI-startups met een investering van $230 miljoen en wijst $80 miljoen toe aan zijn tweede AWS Generative AI Accelerator-programma
Business Nieuwsverslag Technologie
Amazon ondersteunt generatieve AI-startups met een investering van $230 miljoen en wijst $80 miljoen toe aan zijn tweede AWS Generative AI Accelerator-programma
14 June 2024