Informe de noticias SMW Tecnología
30 de mayo de 2023

GPT-4El desempeño de EE. UU. en el examen de la barra de abogados contradice sus afirmaciones

En Resumen

El examen de GPT-4El desempeño de en el examen uniforme de la barra reveló una discrepancia entre el desempeño estimado y el real, enfatizando la importancia de procedimientos de evaluación transparentes y datos accesibles.

OpenAI se alienta a abordar las discrepancias y desarrollar un enfoque más inclusivo y confiable para la evaluación del modelo de IA para ganar confianza y garantizar la credibilidad.

En un examen reciente de GPT-4desempeño en el examen uniforme de la barra (UBE), han surgido dudas sobre la exactitud de OpenAIafirmaciones sobre la tasa de éxito del modelo. Contrariamente a la afirmación inicial de que GPT-4 supera al 90% de los individuos, los hallazgos sugieren una discrepancia significativa entre el rendimiento estimado y real del modelo de IA. Esta revelación enfatiza la importancia de procedimientos de evaluación transparentes y datos accesibles para validar tales afirmaciones.

GPT-4El desempeño de EE. UU. en el examen de la barra de abogados contradice sus afirmaciones
@Midjourney

El examen se centró en varios factores para determinar las verdaderas capacidades de GPT-4. En primer lugar, el análisis de los exámenes de febrero en Illinois revelaron que GPT-4Los puntajes se acercaron al Percentil 90. Sin embargo, se observó que estos puntajes estaban muy influenciados por los repetidores que habían reprobado previamente el examen de julio y, por lo tanto, obtuvieron puntajes por debajo del promedio general.

Además, los resultados del examen de julio contradecían OpenAIafirmaciones, revelando que GPT-4 solo lo haría Superar 68% de las personas y 48% de los ensayos. GPT-4El desempeño de 'frente a los que tomaron por primera vez (excluyendo los repetidos) se evaluó en el percentil 63 cuando se consideraron los datos oficiales de varias pruebas en diferentes períodos, y los ensayos obtuvieron una puntuación considerablemente más baja en el percentil 41.

Se obtuvo una perspectiva adicional al examinar el desempeño de quienes aprobaron el examen, incluidas las personas con licencia y los que estaban en espera de obtenerla. A este respecto, GPT-4El rendimiento general se clasificó en el percentil 48, y los ensayos obtuvieron resultados aún peores en el percentil 15.

Si bien estos hallazgos son preocupantes, es fundamental considerar la posibilidad de error humano en el proceso de revisión. El autor del artículo destaca la importancia de comprender la muestra utilizada por los investigadores para evaluar GPT-4El desempeño. La falta de datos oficiales, especialmente en forma agregada, dificulta la comparación y evaluación justa de los percentiles. Es fundamental establecer técnicas de evaluación claras y accesibles que puedan ser evaluadas por todas las partes interesadas.

En respuesta a estas preocupaciones, OpenAI se insta a abordar las discrepancias y proporcionar más información en el proceso de evaluación. La transparencia y la apertura son esenciales para ganarse la confianza y garantizar la credibilidad de los modelos de IA en dominios de alto riesgo como el derecho.

Cabe señalar que el artículo no analiza la puntuación específica obtenida por GPT-4, que se informa es 298. La evaluación de la importancia de esta puntuación requiere una comprensión contextual del sistema de calificación utilizado. Así como un niño que regresa de la escuela con una B puede ser motivo de celebración o decepción, la interpretación de la GPT-4La puntuación depende de la escala empleada.

La evaluación de GPT-4el desempeño de en el examen de la barra plantea serias preocupaciones sobre la veracidad de OpenAIlas afirmaciones iniciales. La brecha entre el desempeño estimado y el real enfatiza la importancia de sistemas de evaluación claros y datos fácilmente accesibles. OpenAI se alienta a abordar estos desafíos y desarrollar una sociedad más inclusiva y enfoque fiable de la IA evaluación del modelo.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más

Los fundadores de Samourai Wallet son acusados ​​de facilitar 2 millones de dólares en acuerdos en la Darknet

La detención de los fundadores de Samourai Wallet representa un revés notable para la industria, lo que subraya la persistente...

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Chainlink y Rapid Addition colaboran para desarrollar un adaptador blockchain basado en CCIP
Empresa Informe de noticias Tecnología
Chainlink y Rapid Addition colaboran para desarrollar un adaptador blockchain basado en CCIP
1 de mayo de 2024
BitSmiley lanza Alphanet V1 y debuta en la red Bitcoin Layer 2 Bitlayer
Informe de noticias Tecnología
BitSmiley lanza Alphanet V1 y debuta en la red Bitcoin Layer 2 Bitlayer
1 de mayo de 2024
Abril de 2024 registra un mínimo histórico en piratería y estafas, CertiK informa una disminución del 141% desde marzo
Industrias Seguridad Wiki Historias y comentarios Tecnología
Abril de 2024 registra un mínimo histórico en piratería y estafas, CertiK informa una disminución del 141% desde marzo
1 de mayo de 2024
El precio de Bitcoin cae antes del anuncio de la decisión sobre las tasas de interés de la Reserva Federal, los analistas advierten sobre un posible cambio en el mercado
Industrias Informe de noticias Tecnología
El precio de Bitcoin cae antes del anuncio de la decisión sobre las tasas de interés de la Reserva Federal, los analistas advierten sobre un posible cambio en el mercado
1 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.