04 de Julio de 2023

Los desarrolladores presentan un nuevo GPT-4-Método basado en la autoevaluación de LLM, logrando un 80% de acuerdo con las evaluaciones humanas

Publicado: 04 de julio de 2023 a las 9:14 am Actualizado: 04 de julio de 2023 a las 9:19 am

Editado y verificado: 04 de julio de 2023 a las 9:14 am

En Resumen

El método de evaluación LLM ha evolucionado para mejorar la precisión y la equidad en la evaluación de modelos de lenguaje.

Los autores utilizaron un GPT-4 enfoque de comparación, que involucra decenas de miles de respuestas humanas reales, para recopilar datos y abordar desafíos como el sesgo de estimación, la preferencia por la verbosidad, el sesgo de autoafirmación y la capacidad de razonamiento limitada.

En una serie reciente de artículos sobre la evaluación de LLM, se destacó que la escalabilidad y la rentabilidad llevaron a la adopción de un GPT-4 enfoque de comparación. Esto implicó utilizar un modelo para evaluar diferentes respuestas a la misma pregunta, seleccionando la mejor respuesta para crear un sistema de clasificación. Como se mencionó anteriormente, este método tenía limitaciones notables. Los creadores del Calificación de LMSYS.org, que introdujo este enfoque hace unos meses, ahora ha decidido reemplazarlo con un nuevo método de evaluación.

Los desarrolladores presentan un nuevo GPT-4-Método basado en la autoevaluación de LLM, logrando un 80% de acuerdo con las evaluaciones humanas — Créditos: Metaverse Post (mpost.io)

A lo largo de su trabajo, el equipo recopiló decenas de miles de respuestas humanas reales comparando preferencias por diferentes respuestas. Este extenso conjunto de datos les permitió obtener una comprensión más precisa de los pros y los contras asociados con cada respuesta. El nuevo método de evaluación todavía se basa en GPT-4, empleando automatización y escalabilidad. Es accesible para todos a un precio asequible.

Para garantizar la equidad en el proceso de evaluación utilizando GPT-4, se abordaron los siguientes desafíos:

Sesgo de estimación resultante de la preferencia de posición.
Predisposición a la verbosidad, favoreciendo respuestas más largas sin considerar su calidad.
Sesgo de autoafirmación, donde las preferencias se inclinan hacia las propias respuestas del modelo o modelos entrenados .
Limitada capacidad de razonamiento al evaluar cuestiones matemáticas y lógicas.

Aquí hay algunas ilustraciones de las 80 preguntas evaluadas. Para cada uno de los tres grupos, hay dos partes de la misma pregunta.
Puede ver todas las preguntas, todas las respuestas de los modelos y comparaciones por pares entre más de 20 modelos en un sitio web dedicado (https://huggingface.co/spaces/lmsys/mt-bench). Como de costumbre, las secciones de Razonamiento y Codificación contienen los ejemplos más fascinantes.

Después de implementar varias soluciones para mitigar estos problemas, los autores descubrieron que modelos de lenguaje potentes como GPT-4 se alinean bien con las preferencias humanas, logrando más del 80% de acuerdo en las evaluaciones. Esto significa que la evaluación del modelo coincide con las calificaciones humanas en el 80% de los casos, un nivel de acuerdo comparable al de dos evaluadores humanos diferentes trabajando en la misma tarea. OpenAI también ha informado que incluso los coautores de un artículo, que colaboran estrechamente, están de acuerdo en el 82-86% de los casos.

Este punto de referencia demuestra cuán marcadamente difieren los modelos en varios conjuntos de preguntas. La mayor brecha está en el razonamiento y la codificación, donde el nivel de los modelos va mucho más allá. GPT-4. Sin embargo, los modelos se pueden utilizar tanto en juegos de rol como en la escritura de textos comunes. Los autores han publicado aquí nuevos modelos Vicuna v1.3 con tamaños que oscilan entre 7 y 33 mil millones de parámetros. https://github.com/lm-sys/FastChat/tree/main#vicuna-weights.

Es importante señalar que, si bien esta no es una “forma perfecta” de evaluación, representa una mejora significativa con respecto a los métodos anteriores. Los autores ahora pretenden ampliar su conjunto de datos para incluir 1000 preguntas en lugar de 80, y están trabajando activamente para perfeccionar las indicaciones para reducir los sesgos en GPT-4 estimados. Consideran dos evaluaciones más objetivas: una basada en la votación de personas reales (conocida como “arena”, donde compiten los modelos) usando puntos Elo, y otra basada en predicciones de la punto de referencia MMLU.

Otro hecho intrigante es que el GPT-4 modelo es el único que mantiene la calidad al responder a la segunda pregunta. Esto es algo cuestionado por dos razones: 1) El modelo aún se evalúa a sí mismo 2) Aunque la diferencia es insignificante, ilustra cuán inadecuados son otros modelos para seguir diálogos e instrucciones de varios turnos.

Mejora de la comparación de modelos con GPT-4

Con la reciente aparición de varios modelos de lenguaje como Vicuña, Koala y Dolly, la práctica de comparar modelos usando GPT-4 ha ganado popularidad. Se proporciona un mensaje único donde se insertan dos respuestas a la misma pregunta, una del modelo A y otra del modelo B. Luego se pide a los evaluadores que califiquen las respuestas en una escala del 1 al 8, donde 1 indica que el modelo A es significativamente mejor, 8 para el modelo B y 4-5 representa un empate. Las puntuaciones de 2-3 y 6-7 indican un "mejor modelo".

Puede parecer lógico que intercambiar los modelos A y B no afectaría significativamente las puntuaciones (p. ej., 7 se convierte en 2, 8 se convierte en 1), y la superioridad constante de un modelo conduciría a su victoria. Sin embargo, surge el fenómeno del “sesgo posicional”, donde el modelo tiende a asignar puntajes más altos con mayor frecuencia al modelo A (uno). Se espera que este sesgo muestre simetría alrededor del punto medio 4-5, ya que los patrones de indicaciones se barajan al azar. La evaluación humana da cuenta de este sesgo para garantizar la equidad.

En una estudio perspicaz realizado por el equipo de HuggingFace, evaluaron las respuestas de cuatro modelos para 329 preguntas diferentes. Entre los hallazgos interesantes, el estudio reveló lo siguiente:

La clasificación de los cuatro modelos basada en comparaciones por pares fue consistente entre la evaluación humana y GPT-4, aunque se observaron diferentes brechas en la calificación Elo. Esto indica que el modelo puede distinguir entre respuestas buenas y malas, pero tiene problemas con casos límite que están menos alineados con las evaluaciones humanas.
Curiosamente, el modelo calificó las respuestas de otros modelos, particularmente aquellos capacitados en GPT-4 respuestas, más altas que las respuestas humanas reales.
Existe una alta correlación (Pearson=0.96) entre la GPT-4 puntuación y el número de tokens únicos en la respuesta. Esto sugiere que el modelo no evalúa la calidad de la respuesta, lo que enfatiza la necesidad de una interpretación cautelosa.

Estos hallazgos subrayan la importancia de una evaluación cuidadosa al utilizar GPT-4 para comparación de modelos. Si bien el modelo puede diferenciar entre respuestas hasta cierto punto, es posible que sus evaluaciones no siempre se alineen perfectamente con los juicios humanos, especialmente en escenarios matizados. Es fundamental tener precaución y considerar factores adicionales cuando se confía únicamente en GPT-4 puntuaciones. Al perfeccionar las indicaciones e incorporar evaluaciones diversas, los investigadores pretenden mejorar la confiabilidad y precisión de las GPT-4 estimados.

El artículo fue escrito con el apoyo de la comunidad de canales de telegramas.

Lea más sobre la IA:

Tags:

Aviso

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.

Más artículos

Damir Yalalov

Hot Stories

La Comisión de Valores de Hong Kong advierte sobre estafas deepfake dirigidas a la criptoindustria: implicaciones para la seguridad de los inversores

by Viktoriia Palchik

14 de mayo de 2024

Ripple y Evmos colaboran en el desarrollo de la cadena lateral EVM de XRP Ledger con tecnología EvmOS

by alisa davidson

14 de mayo de 2024

5ireChain inicia el incentivo 'Testnet Thunder: GA' para pruebas de estrés de la red e invita a los usuarios a participar Airdrop Recompensas

by alisa davidson

14 de mayo de 2024

Acumula socios con Uphold para facilitar el comercio y las transferencias de activos sin problemas, reforzando la adopción de Bitcoin

by alisa davidson

14 de mayo de 2024

Últimas Noticias

Las 10 mejores herramientas de inteligencia artificial gratuitas para creación de contenido, edición de video y más

by Viktoriia Palchik

14 de mayo de 2024

Ripple y Evmos colaboran en el desarrollo de la cadena lateral EVM de XRP Ledger con tecnología EvmOS

by alisa davidson

14 de mayo de 2024

5ireChain inicia el incentivo 'Testnet Thunder: GA' para pruebas de estrés de la red e invita a los usuarios a participar Airdrop Recompensas

by alisa davidson

14 de mayo de 2024

Acumula socios con Uphold para facilitar el comercio y las transferencias de activos sin problemas, reforzando la adopción de Bitcoin

by alisa davidson

14 de mayo de 2024

De Ripple a The Big Green DAO: cómo los proyectos de criptomonedas contribuyen a la caridad

Exploremos iniciativas que aprovechen el potencial de las monedas digitales para causas benéficas.

Para saber más

AlphaFold 3, Med-Gemini y otros: la forma en que la IA transformará la atención médica en 2024

La IA se manifiesta de varias maneras en la atención médica, desde descubrir nuevas correlaciones genéticas hasta potenciar sistemas quirúrgicos robóticos...

Para saber más

Únase a nuestra comunidad tecnológica innovadora