OpenAI: El nuevo modelo de recompensa supervisado por procesos mejora el razonamiento de la IA
En Resumen
OpenAIEl modelo de recompensa supervisado por procesos (PRM, por sus siglas en inglés) tiene como objetivo evaluar los pasos intermedios y el razonamiento de los modelos de IA, lo que lleva a mejorar el rendimiento y las métricas.
OpenAI ha captado una vez más la atención de la comunidad de IA con su innovador trabajo en el modelado de recompensas supervisado por procesos (PRM). Este enfoque innovador tiene como objetivo evaluar los pasos intermedios y el razonamiento de los modelos de IA, lo que lleva a mejorar el rendimiento y las métricas.
En el aprendizaje por refuerzo tradicional a partir de la retroalimentación humana (RLHF), la retroalimentación del modelo generalmente se proporciona en función del resultado general generado por el modelo. Sin embargo, OpenAILa nueva investigación de explora la idea de evaluar los pasos individuales y los procesos de razonamiento realizados por el modelo. Al hacerlo, pueden proporcionar evaluaciones y comentarios más detallados.
Para abordar este problema, OpenAI problemas matemáticos seleccionados que requerían múltiples acciones. Una separacion modelo fue entrenado para evaluar efectivamente los pasos intermedios, actuando como crítico para identificar cualquier juicio erróneo hecho por el modelo primario. Este proceso no solo mejora el rendimiento general, sino que también mejora las métricas utilizadas para evaluar las capacidades del modelo.
OpenAI ha logrado avances significativos en esta área, con el lanzamiento de un conjunto de datos meticulosamente curado que consiste en 800,000 sentencias marcadas. Cada juicio representa una etapa separada en la resolución de problemas matemáticos y se creó manualmente. Esto destaca el nivel de dedicación y recursos OpenAI invierte en el desarrollo de conjuntos de datos de alta calidad, lo que genera preguntas sobre el volumen de datos recopilados para otros dominios, como la programación o preguntas abiertas.
La formación de GPT-4, OpenAILa última versión del GPT serie, ya está en marcha. Si bien el componente RLHF no se incorpora en los experimentos actuales, se utiliza un modelo de lenguaje puro. Notablemente, OpenAI menciona que hay múltiples versiones de GPT-4, incluso la versión más pequeña requiere significativamente menos recursos para la capacitación, aproximadamente 200 veces menos.
Un ejemplo intrigante compartido por OpenAI muestra cómo evalúa el modelo cada paso de decisión individual. En una captura de pantalla incluida en la publicación, los errores en la solución se marcan y se les otorga la puntuación de corrección más baja, resaltada en rojo. Esta demostración destaca la capacidad de razonamiento del modelo y proporciona información valiosa sobre su proceso de toma de decisiones. OpenAI también ha proporcionado instrucciones para las marcas, ofreciendo oportunidades para que los crowdsourcers contribuyan y se beneficien de su trabajo.
As OpenAI continúa ampliando los límites de la investigación de IA, su enfoque en el razonamiento de modelos y el modelado de recompensas supervisado por procesos brinda nuevas posibilidades para capacidades mejoradas de IA. Este último avance muestra su compromiso de mejorar el rendimiento del modelo y abre las puertas a nuevos avances en el campo.
- Recientemente, Según se informa, Apple restringe el uso de los empleados de ChatGPT y otros chatbots impulsados por IA debido a problemas de privacidad. The Wall Street Journal informó que los trabajadores también tienen restricciones para usar la herramienta de IA Copilot de GitHub, que permite a los usuarios escribir automáticamente código de software. ChatGPT es un chatbot impulsado por IA desarrollado por OpenAI, que ha sido criticado por violaciones de privacidad.
Lea más sobre la IA:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.