Investigadors replicats OpenAITreball basat en l'optimització de polítiques proximals (PPO) a RLHF
L'aprenentatge de reforç a partir de la retroalimentació humana (RLHF) és una part integral de sistemes de formació com ChatGPT, i es basa en mètodes especialitzats per aconseguir l'èxit. Un d'aquests mètodes, Proximal Policy Optimization (PPO), va ser inicialment concebut dins dels murs de OpenAI el 2017. A primera vista, PPO va destacar per la seva promesa de simplicitat en la implementació i un nombre relativament baix d'hiperparàmetres necessaris per afinar el model. Tanmateix, com diuen, el diable està en els detalls.
Recentment, una entrada al blog titulada "Els 37 detalls d'implementació de l'optimització de polítiques proximals” va donar llum sobre les complexitats de PPO (preparat per a la conferència de l'ICLR). Només el nom indica els reptes que s'enfronten per implementar aquest mètode suposadament senzill. Sorprenentment, els autors van trigar tres anys a reunir tota la informació necessària i reproduir els resultats.
El codi a la OpenAI El repositori va patir canvis significatius entre les versions, alguns aspectes es van deixar sense explicar i les peculiaritats que apareixien com a errors d'alguna manera van produir resultats. La complexitat de PPO es fa evident quan s'aprofundeix en els detalls, i per a aquells interessats en una comprensió profunda o una millora personal, hi ha un resum de vídeo molt recomanable disponible.
Però la història no s'acaba aquí. Els mateixos autors van decidir revisar el openai/lm-human-preferences repository des del 2019, que va tenir un paper crucial en l'ajustament dels models lingüístics basats en les preferències humanes, utilitzant PPO. Aquest repositori va marcar els primers desenvolupaments ChatGPT. La publicació recent del blog, "Els detalls d'implementació N de RLHF amb PPO”, replica de prop OpenAIel treball de, però utilitza PyTorch i biblioteques modernes en comptes de l'obsolet TensorFlow. Aquesta transició va comportar el seu propi conjunt de reptes, com ara diferències en la implementació de l'optimitzador Adam entre marcs, cosa que fa que no es pugui replicar l'entrenament sense ajustos.
Potser l'aspecte més intrigant d'aquest viatge és la recerca d'executar experiments amb configuracions de GPU específiques per obtenir mètriques i corbes d'aprenentatge originals. És un viatge ple de reptes, des de les limitacions de memòria en diversos tipus de GPU fins a la migració de OpenAI conjunts de dades entre instal·lacions d'emmagatzematge.
En conclusió, l'exploració de l'optimització de polítiques proximals (PPO) en l'aprenentatge de reforç a partir de la retroalimentació humana (RLHF) revela un món fascinant de complexitats.
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.