27 de Octubre de 2023

Los investigadores replicaron OpenAIEl trabajo de Optimización de Políticas Próximas (PPO) en RLHF

Publicado: 27 de octubre de 2023 a las 8:56 am Actualizado: 27 de octubre de 2023 a las 8:56 am

Editado y verificado: 27 de octubre de 2023 a las 8:56 am

El aprendizaje reforzado a partir de la retroalimentación humana (RLHF) es una parte integral de sistemas de capacitación como ChatGPTY se basa en métodos especializados para lograr el éxito. Uno de estos métodos, la optimización de políticas próximas (PPO), fue inicialmente concebido dentro de los muros de OpenAI en 2017. A primera vista, PPO se destacó por su promesa de simplicidad en la implementación y una cantidad relativamente baja de hiperparámetros necesarios para ajustar el modelo. Sin embargo, como suele decirse, el diablo está en los detalles.

Los investigadores replicaron OpenAIEl trabajo de Optimización de Políticas Próximas (PPO) en RLHF

Recientemente, una publicación de blog titulada “Los 37 detalles de implementación de la optimización de políticas próximas” arrojó luz sobre las complejidades de PPO (preparado para la conferencia ICLR). El nombre por sí solo da una idea de los desafíos que enfrenta la implementación de este método supuestamente sencillo. Sorprendentemente, a los autores les llevó tres años reunir toda la información necesaria y reproducir los resultados.

¿Has tenido dificultades para leer el código de tensorflow 1.x en openai/PPO de líneas de base?

Nuestra publicación de blog lo ayuda a comprender *todo* lo que contiene.

1) 🎥 tutoriales en vídeo
2) 📜 referencias y explicaciones detalladas
3) ⌨️ código realmente simple

Este trabajo me llevó 3 años. 2/32 pic.twitter.com/w5jpQZkD6L
- Costa Huang (@vwxyzjn) Abril 25, 2022

El código en el OpenAI El repositorio sufrió cambios significativos entre versiones, algunos aspectos quedaron sin explicación y peculiaridades que aparecían como errores de alguna manera produjeron resultados. La complejidad de PPO se vuelve evidente cuando se profundiza en los detalles, y para aquellos interesados en una comprensión profunda o la superación personal, hay disponible un resumen en video muy recomendado.

Pero la historia no termina ahí. Los mismos autores decidieron revisar el openai/repositorio de preferencias lm-human de 2019, que jugó un papel crucial en el ajuste de los modelos de lenguaje basados en las preferencias humanas, utilizando PPO. Este repositorio marcó los primeros desarrollos en ChatGPT. La reciente publicación del blog, “Los detalles de implementación N de RLHF con PPO”, replica de cerca OpenAIfunciona pero utiliza PyTorch y bibliotecas modernas en lugar del obsoleto TensorFlow. Esta transición vino con su propio conjunto de desafíos, como diferencias en la implementación del optimizador Adam entre marcos, lo que hace imposible replicar la capacitación sin ajustes.

1. (el más interesante) TF y PT tienen diferentes optimizadores Adam impl y afectan el rendimiento. En particular, Adam de PT produce actualizaciones más agresivas al principio del entrenamiento. pic.twitter.com/lJ99KTmD8M
- Costa Huang (@vwxyzjn) 24 de Octubre de 2023

Quizás el aspecto más intrigante de este viaje es la búsqueda de realizar experimentos en configuraciones de GPU específicas para obtener métricas y curvas de aprendizaje originales. Es un viaje lleno de desafíos, desde limitaciones de memoria en varios tipos de GPU hasta la migración de OpenAI conjuntos de datos entre instalaciones de almacenamiento.

En conclusión, la exploración de la optimización de políticas próximas (PPO) en el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) revela un fascinante mundo de complejidades.

Tags:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.

Más artículos

Damir Yalalov