Nieuwsverslag Technologie
27 oktober 2023

Onderzoekers gerepliceerd OpenAI's werk gebaseerd op proximale beleidsoptimalisatie (PPO) in RLHF

Reinforcement Learning from Human Feedback (RLHF) is een integraal onderdeel van trainingssystemen zoals ChatGPT, en het vertrouwt op gespecialiseerde methoden om succes te behalen. Eén van deze methoden, Proximal Policy Optimization (PPO), was aanvankelijk bedacht binnen de muren van OpenAI in 2017. Op het eerste gezicht viel PPO op door zijn belofte van eenvoud in de implementatie en een relatief laag aantal hyperparameters dat nodig was om het model te verfijnen. Maar zoals ze zeggen: de duivel zit in de details.

Onderzoekers gerepliceerd OpenAI's werk gebaseerd op proximale beleidsoptimalisatie (PPO) in RLHF

Onlangs verscheen er een blogpost met de titel “De 37 implementatiedetails van proximale beleidsoptimalisatie” werpt licht op de fijne kneepjes van PPO (voorbereid voor de ICLR-conferentie). De naam alleen al verwijst naar de uitdagingen waarmee u te maken krijgt bij het implementeren van deze zogenaamd eenvoudige methode. Verbazingwekkend genoeg kostte het de auteurs drie jaar om alle benodigde informatie te verzamelen en de resultaten te reproduceren.

De code in de OpenAI repository onderging significante veranderingen tussen versies, sommige aspecten bleven onverklaard, en eigenaardigheden die als bugs verschenen, leverden op de een of andere manier resultaten op. De complexiteit van PPO wordt duidelijk als je je verdiept in de details, en voor degenen die geïnteresseerd zijn in een diepgaand begrip of zelfverbetering, is er een sterk aanbevolen video-samenvatting beschikbaar.

Maar daar eindigt het verhaal niet. Dezelfde auteurs besloten het opnieuw te bekijken openai/lm-human-preferences-opslagplaats uit 2019, dat een cruciale rol speelde bij het verfijnen van taalmodellen op basis van menselijke voorkeuren, met behulp van PPO. Deze repository markeerde de eerste ontwikkelingen ChatGPT. De recente blogpost: “De N-implementatiedetails van RLHF met PPO”, repliceert nauw OpenAI's werk, maar gebruikt PyTorch en moderne bibliotheken in plaats van het verouderde TensorFlow. Deze transitie bracht zijn eigen uitdagingen met zich mee, zoals verschillen in de implementatie van de Adam-optimizer tussen frameworks, waardoor het onmogelijk werd om training zonder aanpassingen te repliceren.

Misschien wel het meest intrigerende aspect van deze reis is de zoektocht om experimenten uit te voeren op specifieke GPU-opstellingen om originele statistieken en leercurves te verkrijgen. Het is een reis vol uitdagingen, van geheugenbeperkingen op verschillende GPU-typen tot de migratie van OpenAI datasets tussen opslagfaciliteiten.

Concluderend onthult de verkenning van Proximal Policy Optimization (PPO) in Reinforcement Learning from Human Feedback (RLHF) een fascinerende wereld van complexiteit.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Side Protocol lanceert een gestimuleerd testnet en introduceert een Insider Point-systeem, waardoor gebruikers SIDE-punten kunnen verdienen
Markten Nieuwsverslag Technologie
Side Protocol lanceert een gestimuleerd testnet en introduceert een Insider Point-systeem, waardoor gebruikers SIDE-punten kunnen verdienen
9 mei 2024
Web3 en Crypto-evenementen in mei 2024: onderzoek naar nieuwe technologieën en opkomende trends in Blockchain en DeFi
Verteren Business Markten Technologie
Web3 en Crypto-evenementen in mei 2024: onderzoek naar nieuwe technologieën en opkomende trends in Blockchain en DeFi
9 mei 2024
Notcoin wordt gelanceerd op OKX Jumpstart en biedt 1.25% van het totale tokenaanbod voor mijnbouw
Markten Nieuwsverslag Technologie
Notcoin wordt gelanceerd op OKX Jumpstart en biedt 1.25% van het totale tokenaanbod voor mijnbouw
9 mei 2024
Puffer Finance lanceert zijn mainnet en verbetert de integratie van knooppuntoperatoren voor netwerkdecentralisatie
Nieuwsverslag Technologie
Puffer Finance lanceert zijn mainnet en verbetert de integratie van knooppuntoperatoren voor netwerkdecentralisatie
9 mei 2024