Informe de noticias Tecnología
27 de Octubre de 2023

Los investigadores replicaron OpenAIEl trabajo de Optimización de Políticas Próximas (PPO) en RLHF

El aprendizaje reforzado a partir de la retroalimentación humana (RLHF) es una parte integral de sistemas de capacitación como ChatGPTY se basa en métodos especializados para lograr el éxito. Uno de estos métodos, la optimización de políticas próximas (PPO), fue inicialmente concebido dentro de los muros de OpenAI en 2017. A primera vista, PPO se destacó por su promesa de simplicidad en la implementación y una cantidad relativamente baja de hiperparámetros necesarios para ajustar el modelo. Sin embargo, como suele decirse, el diablo está en los detalles.

Los investigadores replicaron OpenAIEl trabajo de Optimización de Políticas Próximas (PPO) en RLHF

Recientemente, una publicación de blog titulada “Los 37 detalles de implementación de la optimización de políticas próximas” arrojó luz sobre las complejidades de PPO (preparado para la conferencia ICLR). El nombre por sí solo da una idea de los desafíos que enfrenta la implementación de este método supuestamente sencillo. Sorprendentemente, a los autores les llevó tres años reunir toda la información necesaria y reproducir los resultados.

El código en el OpenAI El repositorio sufrió cambios significativos entre versiones, algunos aspectos quedaron sin explicación y peculiaridades que aparecían como errores de alguna manera produjeron resultados. La complejidad de PPO se vuelve evidente cuando se profundiza en los detalles, y para aquellos interesados ​​en una comprensión profunda o la superación personal, hay disponible un resumen en video muy recomendado.

Pero la historia no termina ahí. Los mismos autores decidieron revisar el openai/repositorio de preferencias lm-human de 2019, que jugó un papel crucial en el ajuste de los modelos de lenguaje basados ​​en las preferencias humanas, utilizando PPO. Este repositorio marcó los primeros desarrollos en ChatGPT. La reciente publicación del blog, “Los detalles de implementación N de RLHF con PPO”, replica de cerca OpenAIfunciona pero utiliza PyTorch y bibliotecas modernas en lugar del obsoleto TensorFlow. Esta transición vino con su propio conjunto de desafíos, como diferencias en la implementación del optimizador Adam entre marcos, lo que hace imposible replicar la capacitación sin ajustes.

Quizás el aspecto más intrigante de este viaje es la búsqueda de realizar experimentos en configuraciones de GPU específicas para obtener métricas y curvas de aprendizaje originales. Es un viaje lleno de desafíos, desde limitaciones de memoria en varios tipos de GPU hasta la migración de OpenAI conjuntos de datos entre instalaciones de almacenamiento.

En conclusión, la exploración de la optimización de políticas próximas (PPO) en el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) revela un fascinante mundo de complejidades.

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
El cambio de Donald Trump hacia las criptomonedas: de oponente a defensor y lo que significa para el mercado de criptomonedas de EE. UU.
Empresa Industrias Historias y comentarios Tecnología
El cambio de Donald Trump hacia las criptomonedas: de oponente a defensor y lo que significa para el mercado de criptomonedas de EE. UU.
10 de mayo de 2024
Layer3 lanzará el token L3 este verano, asignando el 51% del suministro total a la comunidad
Industrias Informe de noticias Tecnología
Layer3 lanzará el token L3 este verano, asignando el 51% del suministro total a la comunidad
10 de mayo de 2024
Advertencia final de Edward Snowden a los desarrolladores de Bitcoin: “Hagan de la privacidad una prioridad a nivel de protocolo o corren el riesgo de perderla
Industrias Seguridad Wiki Software Historias y comentarios Tecnología
Advertencia final de Edward Snowden a los desarrolladores de Bitcoin: “Hagan de la privacidad una prioridad a nivel de protocolo o corren el riesgo de perderla
10 de mayo de 2024
Mint Network Mint de capa 2 de Ethereum impulsada por el optimismo lanzará su red principal el 15 de mayo
Informe de noticias Tecnología
Mint Network Mint de capa 2 de Ethereum impulsada por el optimismo lanzará su red principal el 15 de mayo
10 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.