Onderzoekers gerepliceerd OpenAI's werk gebaseerd op proximale beleidsoptimalisatie (PPO) in RLHF
Reinforcement Learning from Human Feedback (RLHF) is een integraal onderdeel van trainingssystemen zoals ChatGPT, en het vertrouwt op gespecialiseerde methoden om succes te behalen. Eén van deze methoden, Proximal Policy Optimization (PPO), was aanvankelijk bedacht binnen de muren van OpenAI in 2017. Op het eerste gezicht viel PPO op door zijn belofte van eenvoud in de implementatie en een relatief laag aantal hyperparameters dat nodig was om het model te verfijnen. Maar zoals ze zeggen: de duivel zit in de details.
Onlangs verscheen er een blogpost met de titel “De 37 implementatiedetails van proximale beleidsoptimalisatie” werpt licht op de fijne kneepjes van PPO (voorbereid voor de ICLR-conferentie). De naam alleen al verwijst naar de uitdagingen waarmee u te maken krijgt bij het implementeren van deze zogenaamd eenvoudige methode. Verbazingwekkend genoeg kostte het de auteurs drie jaar om alle benodigde informatie te verzamelen en de resultaten te reproduceren.
De code in de OpenAI repository onderging significante veranderingen tussen versies, sommige aspecten bleven onverklaard, en eigenaardigheden die als bugs verschenen, leverden op de een of andere manier resultaten op. De complexiteit van PPO wordt duidelijk als je je verdiept in de details, en voor degenen die geïnteresseerd zijn in een diepgaand begrip of zelfverbetering, is er een sterk aanbevolen video-samenvatting beschikbaar.
Maar daar eindigt het verhaal niet. Dezelfde auteurs besloten het opnieuw te bekijken openai/lm-human-preferences-opslagplaats uit 2019, dat een cruciale rol speelde bij het verfijnen van taalmodellen op basis van menselijke voorkeuren, met behulp van PPO. Deze repository markeerde de eerste ontwikkelingen ChatGPT. De recente blogpost: “De N-implementatiedetails van RLHF met PPO”, repliceert nauw OpenAI's werk, maar gebruikt PyTorch en moderne bibliotheken in plaats van het verouderde TensorFlow. Deze transitie bracht zijn eigen uitdagingen met zich mee, zoals verschillen in de implementatie van de Adam-optimizer tussen frameworks, waardoor het onmogelijk werd om training zonder aanpassingen te repliceren.
Misschien wel het meest intrigerende aspect van deze reis is de zoektocht om experimenten uit te voeren op specifieke GPU-opstellingen om originele statistieken en leercurves te verkrijgen. Het is een reis vol uitdagingen, van geheugenbeperkingen op verschillende GPU-typen tot de migratie van OpenAI datasets tussen opslagfaciliteiten.
Concluderend onthult de verkenning van Proximal Policy Optimization (PPO) in Reinforcement Learning from Human Feedback (RLHF) een fascinerende wereld van complexiteit.
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.