Informe de noticias Tecnología
Sábado, Junio 01, 2023

OpenAI: El nuevo modelo de recompensa supervisado por procesos mejora el razonamiento de la IA

En Resumen

OpenAIEl modelo de recompensa supervisado por procesos (PRM, por sus siglas en inglés) tiene como objetivo evaluar los pasos intermedios y el razonamiento de los modelos de IA, lo que lleva a mejorar el rendimiento y las métricas.

OpenAI ha captado una vez más la atención de la comunidad de IA con su innovador trabajo en el modelado de recompensas supervisado por procesos (PRM). Este enfoque innovador tiene como objetivo evaluar los pasos intermedios y el razonamiento de los modelos de IA, lo que lleva a mejorar el rendimiento y las métricas.

OpenAI: El nuevo modelo de recompensa supervisado por procesos mejora el razonamiento de la IA
Créditos: Metaverse Post (mpost.io)
Recomendado: ChatGPT Podría cambiar Wall Street al facilitar el comercio

En el aprendizaje por refuerzo tradicional a partir de la retroalimentación humana (RLHF), la retroalimentación del modelo generalmente se proporciona en función del resultado general generado por el modelo. Sin embargo, OpenAILa nueva investigación de explora la idea de evaluar los pasos individuales y los procesos de razonamiento realizados por el modelo. Al hacerlo, pueden proporcionar evaluaciones y comentarios más detallados.

Para abordar este problema, OpenAI problemas matemáticos seleccionados que requerían múltiples acciones. Una separacion modelo fue entrenado para evaluar efectivamente los pasos intermedios, actuando como crítico para identificar cualquier juicio erróneo hecho por el modelo primario. Este proceso no solo mejora el rendimiento general, sino que también mejora las métricas utilizadas para evaluar las capacidades del modelo.

OpenAI ha logrado avances significativos en esta área, con el lanzamiento de un conjunto de datos meticulosamente curado que consiste en 800,000 sentencias marcadas. Cada juicio representa una etapa separada en la resolución de problemas matemáticos y se creó manualmente. Esto destaca el nivel de dedicación y recursos OpenAI invierte en el desarrollo de conjuntos de datos de alta calidad, lo que genera preguntas sobre el volumen de datos recopilados para otros dominios, como la programación o preguntas abiertas.

La formación de GPT-4, OpenAILa última versión del GPT serie, ya está en marcha. Si bien el componente RLHF no se incorpora en los experimentos actuales, se utiliza un modelo de lenguaje puro. Notablemente, OpenAI menciona que hay múltiples versiones de GPT-4, incluso la versión más pequeña requiere significativamente menos recursos para la capacitación, aproximadamente 200 veces menos.

Un ejemplo intrigante compartido por OpenAI muestra cómo el modelo evalúa cada paso de decisión individual. En una captura de pantalla incluida en la publicación, los errores en la solución se marcan y se les otorga la puntuación de corrección más baja, resaltada en rojo.
Créditos: OpenAI

Un ejemplo intrigante compartido por OpenAI muestra cómo evalúa el modelo cada paso de decisión individual. En una captura de pantalla incluida en la publicación, los errores en la solución se marcan y se les otorga la puntuación de corrección más baja, resaltada en rojo. Esta demostración destaca la capacidad de razonamiento del modelo y proporciona información valiosa sobre su proceso de toma de decisiones. OpenAI también ha proporcionado instrucciones para las marcas, ofreciendo oportunidades para que los crowdsourcers contribuyan y se beneficien de su trabajo.

As OpenAI continúa ampliando los límites de la investigación de IA, su enfoque en el razonamiento de modelos y el modelado de recompensas supervisado por procesos brinda nuevas posibilidades para capacidades mejoradas de IA. Este último avance muestra su compromiso de mejorar el rendimiento del modelo y abre las puertas a nuevos avances en el campo.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
El cambio de Donald Trump hacia las criptomonedas: de oponente a defensor y lo que significa para el mercado de criptomonedas de EE. UU.
Empresa Industrias Historias y comentarios Tecnología
El cambio de Donald Trump hacia las criptomonedas: de oponente a defensor y lo que significa para el mercado de criptomonedas de EE. UU.
10 de mayo de 2024
Layer3 lanzará el token L3 este verano, asignando el 51% del suministro total a la comunidad
Industrias Informe de noticias Tecnología
Layer3 lanzará el token L3 este verano, asignando el 51% del suministro total a la comunidad
10 de mayo de 2024
Advertencia final de Edward Snowden a los desarrolladores de Bitcoin: “Hagan de la privacidad una prioridad a nivel de protocolo o corren el riesgo de perderla
Industrias Seguridad Wiki Software Historias y comentarios Tecnología
Advertencia final de Edward Snowden a los desarrolladores de Bitcoin: “Hagan de la privacidad una prioridad a nivel de protocolo o corren el riesgo de perderla
10 de mayo de 2024
Mint Network Mint de capa 2 de Ethereum impulsada por el optimismo lanzará su red principal el 15 de mayo
Informe de noticias Tecnología
Mint Network Mint de capa 2 de Ethereum impulsada por el optimismo lanzará su red principal el 15 de mayo
10 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.