Octubre 27, 2023

Investigadors replicats OpenAITreball basat en l'optimització de polítiques proximals (PPO) a RLHF

Publicat: 27 d'octubre de 2023 a les 8:56 Actualitzat: 27 d'octubre de 2023 a les 8:56

Editat i verificat: 27 d'octubre de 2023 a les 8:56

L'aprenentatge de reforç a partir de la retroalimentació humana (RLHF) és una part integral de sistemes de formació com ChatGPT, i es basa en mètodes especialitzats per aconseguir l'èxit. Un d'aquests mètodes, Proximal Policy Optimization (PPO), va ser inicialment concebut dins dels murs de OpenAI el 2017. A primera vista, PPO va destacar per la seva promesa de simplicitat en la implementació i un nombre relativament baix d'hiperparàmetres necessaris per afinar el model. Tanmateix, com diuen, el diable està en els detalls.

Investigadors replicats OpenAITreball basat en l'optimització de polítiques proximals (PPO) a RLHF

Recentment, una entrada al blog titulada "Els 37 detalls d'implementació de l'optimització de polítiques proximals” va donar llum sobre les complexitats de PPO (preparat per a la conferència de l'ICLR). Només el nom indica els reptes que s'enfronten per implementar aquest mètode suposadament senzill. Sorprenentment, els autors van trigar tres anys a reunir tota la informació necessària i reproduir els resultats.

Has lluitat per llegir el codi tensorflow 1.x openai/baselines' PPO?

La nostra publicació al bloc t'ajuda a entendre *tot*

1) 🎥 videotutorials
2) 📜 referències i explicacions detallades
3) ⌨️ codi molt senzill

Aquesta feina em va costar 3 anys. 2/32 pic.twitter.com/w5jpQZkD6L
— Costa Huang (@vwxyzjn) Abril 25, 2022

El codi a la OpenAI El repositori va patir canvis significatius entre les versions, alguns aspectes es van deixar sense explicar i les peculiaritats que apareixien com a errors d'alguna manera van produir resultats. La complexitat de PPO es fa evident quan s'aprofundeix en els detalls, i per a aquells interessats en una comprensió profunda o una millora personal, hi ha un resum de vídeo molt recomanable disponible.

Però la història no s'acaba aquí. Els mateixos autors van decidir revisar el openai/lm-human-preferences repository des del 2019, que va tenir un paper crucial en l'ajustament dels models lingüístics basats en les preferències humanes, utilitzant PPO. Aquest repositori va marcar els primers desenvolupaments ChatGPT. La publicació recent del blog, "Els detalls d'implementació N de RLHF amb PPO”, replica de prop OpenAIel treball de, però utilitza PyTorch i biblioteques modernes en comptes de l'obsolet TensorFlow. Aquesta transició va comportar el seu propi conjunt de reptes, com ara diferències en la implementació de l'optimitzador Adam entre marcs, cosa que fa que no es pugui replicar l'entrenament sense ajustos.

1. (el més interessant) TF i PT tenen diferents implements d'optimització d'Adam i afecten el rendiment. En particular, l'Adam de PT produeix actualitzacions més agressives al principi de l'entrenament. pic.twitter.com/lJ99KTmD8M
— Costa Huang (@vwxyzjn) Octubre 24, 2023

Potser l'aspecte més intrigant d'aquest viatge és la recerca d'executar experiments amb configuracions de GPU específiques per obtenir mètriques i corbes d'aprenentatge originals. És un viatge ple de reptes, des de les limitacions de memòria en diversos tipus de GPU fins a la migració de OpenAI conjunts de dades entre instal·lacions d'emmagatzematge.

En conclusió, l'exploració de l'optimització de polítiques proximals (PPO) en l'aprenentatge de reforç a partir de la retroalimentació humana (RLHF) revela un món fascinant de complexitats.

etiquetes:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.

més articles

Damir Yalalov

Hot Stories

Crypto Exchange OKX llista Notcoin, disposat a introduir el comerç al comptat amb el parell NOT-USDT el 16 de maig

by Alisa Davidson

Pot 10, 2024

Blast llança el tercer esdeveniment de distribució d'or Blast, assigna 15 milions de punts a DApps

by Alisa Davidson

Pot 10, 2024

Espresso Systems col·labora amb Polygon Labs per desenvolupar AggLayer per millorar la interoperabilitat de l'enrotllament

by Alisa Davidson

Pot 09, 2024

El protocol d'infraestructura impulsat per ZKP ZKBase presenta el full de ruta i planeja el llançament de Testnet al maig

by Alisa Davidson

Pot 09, 2024

Últimes notícies

Crypto Exchange OKX llista Notcoin, disposat a introduir el comerç al comptat amb el parell NOT-USDT el 16 de maig

by Alisa Davidson

Pot 10, 2024

Blast llança el tercer esdeveniment de distribució d'or Blast, assigna 15 milions de punts a DApps

by Alisa Davidson

Pot 10, 2024

Espresso Systems col·labora amb Polygon Labs per desenvolupar AggLayer per millorar la interoperabilitat de l'enrotllament

by Alisa Davidson

Pot 09, 2024

El protocol d'infraestructura impulsat per ZKP ZKBase presenta el full de ruta i planeja el llançament de Testnet al maig

by Alisa Davidson

Pot 09, 2024

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més