Informe de noticias Tecnología
Marzo 15, 2023

GPT-4 Supera GPT-3.5 Generalmente en una variedad de puntos de referencia de estudio

En Resumen

El GPT-4 ha alcanzado un umbral de calificación más alto que el GPT-3.5 en una variedad de puntos de referencia.

Este es un logro importante, ya que demuestra que las máquinas no solo son capaces de tener una inteligencia similar a la humana, sino que también pueden superarnos, lo que plantea dudas sobre el futuro de la IA y su impacto potencial en el mercado laboral.

GPT-4 es significativamente superado por los modelos de última generación (SOTA), incluidos aquellos que utilizan protocolos de entrenamiento adicionales o diseños específicos de referencia, así como los grandes modelos de lenguaje existentes.

El GPT-4 ha obtenido puntuaciones superiores a las GPT-3.5 en una variedad de puntos de referencia. Este es un gran avance para las máquinas, ya que demuestra que ahora no sólo pueden resolver problemas para los que fueron diseñadas originalmente, sino que también pueden hacerlo mejor que los estudiantes universitarios.

GPT-4 supera GPT-3.5 en todos los ámbitos en una variedad de puntos de referencia de estudio

Hay algunas cosas a tener en cuenta al observar este resultado. En primer lugar, el GPT-4 No recibió ninguna formación específica para estos exámenes. Procedió utilizando las pruebas más recientes disponibles públicamente (en el caso de las Olimpiadas y las preguntas de respuesta libre AP) o comprando las ediciones 2022-2023 de exámenes de práctica. En segundo lugar, es importante señalar que el GPT-4Es posible que el desempeño de no refleje necesariamente las habilidades de los examinados humanos, ya que opera con un conjunto diferente de principios y algoritmos.

Este es un gran logro como muestra que las máquinas no solo son capaces de una inteligencia similar a la humana, sino que también pueden superarnos. Esto allana el camino para un futuro en el que las máquinas puedan asumir tareas cada vez más complejas, lo que finalmente conducirá a un futuro en el que puedan ayudarnos en nuestra vida cotidiana.

El GPT-4La capacidad de superar a los humanos en ciertas tareas plantea interrogantes sobre el futuro de inteligencia artificial y su impacto potencial en el mercado laboral. También destaca la necesidad de investigación y desarrollo continuos en este campo para garantizar que la IA se use de manera ética y responsable.
Más información: Más de 5 modelos de IA de texto a imagen más esperados de 2023

GPT-4, por ejemplo, aprueba un examen de abogacía simulado con una puntuación entre el 10% de los mejores examinados; GPT-3La puntuación de .5 estuvo en el 10% inferior. Esta importante mejora en GPT-4El rendimiento de se debe a sus datos de entrenamiento más grandes y su arquitectura mejorada. Se espera que tenga una amplia gama de aplicaciones en diversos campos, incluido el procesamiento del lenguaje natural y la escritura automatizada.

 
GPT-4 exhibe un desempeño a nivel humano en la mayoría de estos exámenes profesionales y académicos. En particular, aprobó una versión simulada del Examen Uniforme de Abogados con una puntuación entre el 10% de los mejores examinados. Las capacidades del modelo en los exámenes parecen surgir principalmente del proceso de capacitación previa y no se ven afectadas significativamente por RLHF. En las preguntas de opción múltiple, tanto la base GPT-4 El modelo y el modelo RLHF obtuvieron resultados igualmente buenos en promedio entre los desarrolladores del examen evaluado.

La mayoría de los modelos de última generación (SOTA), incluidos aquellos que pueden usar protocolos de entrenamiento adicionales o diseños específicos de referencia, así como los modelos grandes existentes modelos de lenguaje, son significativamente superados por GPT-4.

GPT-4el desempeño en términos de estándares académicos. Los desarrolladores contrastan GPT-4 con el mejor SOTA para unos pocos disparos evaluados por LM, así como el mejor SOTA con entrenamiento específico de referencia. Con la excepción de DROP, GPT-4 supera a todos los LM actuales en todos los puntos de referencia y SOTA con capacitación específica de los puntos de referencia.

Internamente, los desarrolladores han estado utilizando GPT-4, lo que ha tenido un impacto significativo en actividades como programación, ventas, soporte y moderación de contenido. La segunda etapa de nuestro método de alineación ya está en marcha, ya que los desarrolladores lo utilizan para ayudar a los humanos a revisar los resultados de la IA.

El conjunto de datos MMLU (Massive Multi-Task Language Understanding) contiene preguntas de una amplia gama de temas sobre la comprensión del lenguaje en diferentes tareas (que abarcan 57 dominios, incluidas las matemáticas, la biología, el derecho, las ciencias sociales y humanas, etc.). Hay cuatro posibles respuestas a la pregunta, una de las cuales es correcta. Es decir, adivinar al azar muestra un resultado de 25% de respuestas correctas. Vea la imagen a continuación para ver ejemplos de preguntas y sus dificultades. El marcador de persona promedio (es decir, este no es un científico, no es un profesor, una persona común que tiene un segundo empleo como margen de beneficio) responde correctamente al 35% de las preguntas; sin embargo, los expertos pueden alcanzar una puntuación de +/- 90%.

Rendimiento de GPT-4 en una variedad de idiomas en comparación con modelos anteriores en inglés en MMLU. GPT-4 supera el rendimiento en inglés de los modelos lingüísticos existentes para la gran mayoría de los idiomas examinados, incluidos los idiomas de bajos recursos como el letón, el galés y el suajili.
Más información: 5 razones para usar Bing impulsado por IA en lugar de Google

Originalmente, todo el conjunto de datos estaba en inglés. Pero ¿qué pasa si las preguntas y respuestas se traducen a otros idiomas, especialmente a los menos comunes? ¿El modelo les funcionará de alguna manera? En esta prueba, se utilizó el servicio Microsoft Azure Translate para la traducción. Las traducciones no son perfectas; en algunos casos, se pierde información importante. Sin embargo, incluso en este caso, el GPT-4 funciona bien en otros idiomas. En las versiones traducidas de la MMLU, GPT-4 supera el nivel de inglés de otros modelos grandes (incluido el de Google) en 24 de los 26 idiomas examinados.

Además, GPT-4 funciona mejor en idiomas raros que ChatGPT hizo en ingles (ChatGPT logró una puntuación del 70.1%, mientras que la puntuación del nuevo modelo para tailandés fue del 71.8%). La puntuación de la prueba en inglés fue la más alta, con GPT-4 con un rendimiento un 10% mejor que otros modelos, incluido el PaLM más grande de Google. Logró una puntuación del 86.4%, mientras que un grupo de expertos, del 90%.

  • Para el verano de 2023, la IA podría haber alcanzado un nuevo nivel de poder gracias a ChatGPT, un chatbot que utiliza el GPT-4 algoritmo y supera GPT-3 por un factor de 570. Una variedad de elementos contribuyen a ChatGPTEl éxito de , incluido su diseño para ser más "humano" y su uso de minería de datos de vanguardia y procesamiento de lenguaje natural para aumentar su eficacia y precisión.
  • Microsoft y OpenAI anunció la renovación de su colaboración y sus planes para que Bing Search adopte capacidades de búsqueda mejoradas por IA en enero. El muy sofisticado GPTReemplazo del modelo 3.5, GPT4, acaba de ser lanzado, y tiene el potencial de mejorar en gran medida la capacidad de búsqueda de Bing para comprender consultas en lenguaje natural y ofrecer resultados más precisos. Es una buena idea tener un buen plan de respaldo en caso de que algo salga mal.

Leer más noticias relacionadas:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
Empresa Informe de noticias Tecnología
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
3 de mayo de 2024
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
Industrias Informe de noticias Tecnología
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
3 de mayo de 2024
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
Industrias Informe de noticias Tecnología
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
3 de mayo de 2024
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
Empresa Informe de noticias Tecnología
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
3 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.