Informe de notícies Tecnologia
Octubre 27, 2023

Investigadors replicats OpenAITreball basat en l'optimització de polítiques proximals (PPO) a RLHF

L'aprenentatge de reforç a partir de la retroalimentació humana (RLHF) és una part integral de sistemes de formació com ChatGPT, i es basa en mètodes especialitzats per aconseguir l'èxit. Un d'aquests mètodes, Proximal Policy Optimization (PPO), va ser inicialment concebut dins dels murs de OpenAI el 2017. A primera vista, PPO va destacar per la seva promesa de simplicitat en la implementació i un nombre relativament baix d'hiperparàmetres necessaris per afinar el model. Tanmateix, com diuen, el diable està en els detalls.

Investigadors replicats OpenAITreball basat en l'optimització de polítiques proximals (PPO) a RLHF

Recentment, una entrada al blog titulada "Els 37 detalls d'implementació de l'optimització de polítiques proximals” va donar llum sobre les complexitats de PPO (preparat per a la conferència de l'ICLR). Només el nom indica els reptes que s'enfronten per implementar aquest mètode suposadament senzill. Sorprenentment, els autors van trigar tres anys a reunir tota la informació necessària i reproduir els resultats.

El codi a la OpenAI El repositori va patir canvis significatius entre les versions, alguns aspectes es van deixar sense explicar i les peculiaritats que apareixien com a errors d'alguna manera van produir resultats. La complexitat de PPO es fa evident quan s'aprofundeix en els detalls, i per a aquells interessats en una comprensió profunda o una millora personal, hi ha un resum de vídeo molt recomanable disponible.

Però la història no s'acaba aquí. Els mateixos autors van decidir revisar el openai/lm-human-preferences repository des del 2019, que va tenir un paper crucial en l'ajustament dels models lingüístics basats en les preferències humanes, utilitzant PPO. Aquest repositori va marcar els primers desenvolupaments ChatGPT. La publicació recent del blog, "Els detalls d'implementació N de RLHF amb PPO”, replica de prop OpenAIel treball de, però utilitza PyTorch i biblioteques modernes en comptes de l'obsolet TensorFlow. Aquesta transició va comportar el seu propi conjunt de reptes, com ara diferències en la implementació de l'optimitzador Adam entre marcs, cosa que fa que no es pugui replicar l'entrenament sense ajustos.

Potser l'aspecte més intrigant d'aquest viatge és la recerca d'executar experiments amb configuracions de GPU específiques per obtenir mètriques i corbes d'aprenentatge originals. És un viatge ple de reptes, des de les limitacions de memòria en diversos tipus de GPU fins a la migració de OpenAI conjunts de dades entre instal·lacions d'emmagatzematge.

En conclusió, l'exploració de l'optimització de polítiques proximals (PPO) en l'aprenentatge de reforç a partir de la retroalimentació humana (RLHF) revela un món fascinant de complexitats.

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
Crypto Exchange OKX llista Notcoin, disposat a introduir el comerç al comptat amb el parell NOT-USDT el 16 de maig
mercats Informe de notícies Tecnologia
Crypto Exchange OKX llista Notcoin, disposat a introduir el comerç al comptat amb el parell NOT-USDT el 16 de maig  
Pot 10, 2024
Blast llança el tercer esdeveniment de distribució d'or Blast, assigna 15 milions de punts a DApps
mercats Informe de notícies Tecnologia
Blast llança el tercer esdeveniment de distribució d'or Blast, assigna 15 milions de punts a DApps
Pot 10, 2024
Espresso Systems col·labora amb Polygon Labs per desenvolupar AggLayer per millorar la interoperabilitat de l'enrotllament
Negocis Informe de notícies Tecnologia
Espresso Systems col·labora amb Polygon Labs per desenvolupar AggLayer per millorar la interoperabilitat de l'enrotllament
Pot 9, 2024
El protocol d'infraestructura impulsat per ZKP ZKBase presenta el full de ruta i planeja el llançament de Testnet al maig
Informe de notícies Tecnologia
El protocol d'infraestructura impulsat per ZKP ZKBase presenta el full de ruta i planeja el llançament de Testnet al maig
Pot 9, 2024
CRYPTOMERIA LABS PTE. LTD.