Los desarrolladores presentan un nuevo GPT-4-Método basado en la autoevaluación de LLM, logrando un 80% de acuerdo con las evaluaciones humanas
En Resumen
El método de evaluación LLM ha evolucionado para mejorar la precisión y la equidad en la evaluación de modelos de lenguaje.
Los autores utilizaron un GPT-4 enfoque de comparación, que involucra decenas de miles de respuestas humanas reales, para recopilar datos y abordar desafíos como el sesgo de estimación, la preferencia por la verbosidad, el sesgo de autoafirmación y la capacidad de razonamiento limitada.
En una serie reciente de artículos sobre la evaluación de LLM, se destacó que la escalabilidad y la rentabilidad llevaron a la adopción de un GPT-4 enfoque de comparación. Esto implicó utilizar un modelo para evaluar diferentes respuestas a la misma pregunta, seleccionando la mejor respuesta para crear un sistema de clasificación. Como se mencionó anteriormente, este método tenía limitaciones notables. Los creadores del Calificación de LMSYS.org, que introdujo este enfoque hace unos meses, ahora ha decidido reemplazarlo con un nuevo método de evaluación.
A lo largo de su trabajo, el equipo recopiló decenas de miles de respuestas humanas reales comparando preferencias por diferentes respuestas. Este extenso conjunto de datos les permitió obtener una comprensión más precisa de los pros y los contras asociados con cada respuesta. El nuevo método de evaluación todavía se basa en GPT-4, empleando automatización y escalabilidad. Es accesible para todos a un precio asequible.
Para garantizar la equidad en el proceso de evaluación utilizando GPT-4, se abordaron los siguientes desafíos:
- Sesgo de estimación resultante de la preferencia de posición.
- Predisposición a la verbosidad, favoreciendo respuestas más largas sin considerar su calidad.
- Sesgo de autoafirmación, donde las preferencias se inclinan hacia las propias respuestas del modelo o modelos entrenados .
- Limitada capacidad de razonamiento al evaluar cuestiones matemáticas y lógicas.
Después de implementar varias soluciones para mitigar estos problemas, los autores descubrieron que modelos de lenguaje potentes como GPT-4 se alinean bien con las preferencias humanas, logrando más del 80% de acuerdo en las evaluaciones. Esto significa que la evaluación del modelo coincide con las calificaciones humanas en el 80% de los casos, un nivel de acuerdo comparable al de dos evaluadores humanos diferentes trabajando en la misma tarea. OpenAI también ha informado que incluso los coautores de un artículo, que colaboran estrechamente, están de acuerdo en el 82-86% de los casos.
Es importante señalar que, si bien esta no es una “forma perfecta” de evaluación, representa una mejora significativa con respecto a los métodos anteriores. Los autores ahora pretenden ampliar su conjunto de datos para incluir 1000 preguntas en lugar de 80, y están trabajando activamente para perfeccionar las indicaciones para reducir los sesgos en GPT-4 estimados. Consideran dos evaluaciones más objetivas: una basada en la votación de personas reales (conocida como “arena”, donde compiten los modelos) usando puntos Elo, y otra basada en predicciones de la punto de referencia MMLU.
Mejora de la comparación de modelos con GPT-4
Con la reciente aparición de varios modelos de lenguaje como Vicuña, Koala y Dolly, la práctica de comparar modelos usando GPT-4 ha ganado popularidad. Se proporciona un mensaje único donde se insertan dos respuestas a la misma pregunta, una del modelo A y otra del modelo B. Luego se pide a los evaluadores que califiquen las respuestas en una escala del 1 al 8, donde 1 indica que el modelo A es significativamente mejor, 8 para el modelo B y 4-5 representa un empate. Las puntuaciones de 2-3 y 6-7 indican un "mejor modelo".
En una estudio perspicaz realizado por el equipo de HuggingFace, evaluaron las respuestas de cuatro modelos para 329 preguntas diferentes. Entre los hallazgos interesantes, el estudio reveló lo siguiente:
- La clasificación de los cuatro modelos basada en comparaciones por pares fue consistente entre la evaluación humana y GPT-4, aunque se observaron diferentes brechas en la calificación Elo. Esto indica que el modelo puede distinguir entre respuestas buenas y malas, pero tiene problemas con casos límite que están menos alineados con las evaluaciones humanas.
- Curiosamente, el modelo calificó las respuestas de otros modelos, particularmente aquellos capacitados en GPT-4 respuestas, más altas que las respuestas humanas reales.
- Existe una alta correlación (Pearson=0.96) entre la GPT-4 puntuación y el número de tokens únicos en la respuesta. Esto sugiere que el modelo no evalúa la calidad de la respuesta, lo que enfatiza la necesidad de una interpretación cautelosa.
Estos hallazgos subrayan la importancia de una evaluación cuidadosa al utilizar GPT-4 para comparación de modelos. Si bien el modelo puede diferenciar entre respuestas hasta cierto punto, es posible que sus evaluaciones no siempre se alineen perfectamente con los juicios humanos, especialmente en escenarios matizados. Es fundamental tener precaución y considerar factores adicionales cuando se confía únicamente en GPT-4 puntuaciones. Al perfeccionar las indicaciones e incorporar evaluaciones diversas, los investigadores pretenden mejorar la confiabilidad y precisión de las GPT-4 estimados.
El artículo fue escrito con el apoyo de la comunidad de canales de telegramas.
Lea más sobre la IA:
Aviso
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.