Rapport de nouvelles Technologie
le 15 mars 2023

GPT-4 surpasse GPT-3.5 dans tous les domaines sur une variété de critères d'étude

Le GPT-4 a obtenu des scores plus élevés que le GPT-3.5 sur une variété de points de repère. Il s'agit d'une percée majeure pour les machines car cela prouve qu'elles peuvent désormais non seulement résoudre des problèmes pour lesquels elles ont été conçues à l'origine, mais aussi mieux que les étudiants universitaires.

GPT-4 surpasse GPT-3.5 dans tous les domaines sur une variété de critères d'étude

Il y a quelques éléments à prendre en considération lorsque l'on regarde ce résultat. Premièrement, le GPT-4 n'a reçu aucune formation spécifique pour ces examens. Il a procédé en utilisant les tests les plus récents accessibles au public (dans le cas des Olympiades et des questions à réponse libre AP) ou en achetant les éditions 2022-2023 des examens pratiques. Deuxièmement, il est important de noter que les performances du GPT-4 ne reflètent pas nécessairement les capacités des candidats humains, car il fonctionne sur un ensemble différent de principes et d'algorithmes.

Il s'agit d'une réalisation majeure car ça montre que les machines sont non seulement capables d'une intelligence semblable à celle de l'homme, mais qu'elles peuvent aussi nous surpasser. Cela ouvre la voie à un avenir où les machines peuvent assumer des tâches de plus en plus complexes, menant finalement à un avenir dans lequel elles peuvent nous aider dans notre vie quotidienne.

La capacité du GPT-4 à surpasser les humains dans certaines tâches soulève des questions sur l'avenir de intelligence artificielle et son impact potentiel sur le marché du travail. Il souligne également la nécessité de poursuivre la recherche et le développement dans ce domaine pour garantir que l'IA est utilisée de manière éthique et responsable.
Lire la suite: 5+ modèles d'IA texte-image les plus attendus de 2023

GPT-4, par exemple, réussit un examen du barreau simulé avec un score parmi les 10 % des meilleurs candidats ; Le score de GPT-3.5 se situait dans les 10 % inférieurs. Cette amélioration significative des performances de GPT-4 est due à ses données d'entraînement plus importantes et à son architecture améliorée. On s'attend à ce qu'il ait un large éventail d'applications dans divers domaines, y compris le traitement du langage naturel et l'écriture automatisée.

 
GPT-4 présente des performances de niveau humain sur la majorité de ces examens professionnels et académiques. Il a notamment réussi une version simulée de l'examen uniforme du barreau avec un score parmi les 10 % des meilleurs candidats. Les capacités du modèle aux examens semblent provenir principalement du processus de pré-formation et ne sont pas significativement affectées par la RLHF. Sur les questions à choix multiples, le modèle GPT-4 de base et le modèle RLHF ont obtenu des résultats aussi bons en moyenne parmi les développeurs de l'examen testé.

La majorité des modèles de pointe (SOTA), y compris ceux qui peuvent utiliser des protocoles de formation supplémentaires ou une conception spécifique à des références, ainsi que les grands modèles de langage, sont largement dépassés par GPT-4.

La performance de GPT-4 en termes de normes académiques. Les développeurs opposent GPT-4 au meilleur SOTA pour un peu de prises de vue évaluées par LM ainsi qu'au meilleur SOTA avec une formation spécifique à la référence. À l'exception de DROP, GPT-4 surpasse tous les LM actuels sur tous les benchmarks et SOTA avec une formation spécifique aux benchmarks.

En interne, les développeurs ont utilisé GPT-4, ce qui a eu un impact significatif sur des activités telles que la programmation, les ventes, le support et la modération de contenu. La deuxième étape de notre méthode d'alignement est maintenant en cours, car les développeurs l'utilisent pour aider les humains à examiner les résultats de l'IA.

L'ensemble de données MMLU (Massive Multi-Task Language Understanding) contient des questions sur un très large éventail de sujets sur la compréhension du langage dans différentes tâches (couvrant 57 domaines, y compris les mathématiques, la biologie, le droit, les sciences sociales et humaines, etc.). Il y a quatre réponses possibles à la question, dont l'une est correcte. C'est-à-dire que les devinettes aléatoires montrent un résultat de 25% de réponses correctes. Voir l'image ci-dessous pour des exemples de questions et leurs difficultés. La personne-marqueur moyenne (c'est-à-dire qu'il ne s'agit pas d'un scientifique, ni d'un professeur - une personne ordinaire qui travaille au clair de lune en guise de balisage) répond correctement à 35 % des questions ; cependant, les experts peuvent atteindre un score de +/- 90 %.

Performances de GPT-4 dans une gamme de langues par rapport aux modèles précédents en anglais sur MMLU. GPT-4 dépasse les performances en anglais des modèles linguistiques existants pour la grande majorité des langues examinées, y compris les langues à faibles ressources telles que le letton, le gallois et le swahili.
Lire la suite: 5 raisons d'utiliser Bing sur Google alimenté par l'IA

À l'origine, l'ensemble des données était en anglais. Mais que se passe-t-il si les questions et les réponses sont traduites dans d'autres langues, en particulier les moins courantes ? Le modèle fonctionnera-t-il pour eux d'une manière ou d'une autre? Dans ce test, le service Microsoft Azure Translate a été utilisé pour la traduction. Les traductions ne sont pas parfaites ; dans certains cas, des informations importantes sont perdues. Cependant, même dans ce cas, le GPT-4 fonctionne bien dans d'autres langues. Dans les versions traduites du MMLU, GPT-4 surpasse le niveau d'anglais des autres grands modèles (dont celui de Google) de 24 des 26 langues examinées.

De plus, GPT-4 fonctionne mieux dans les langues rares que ChatGPT fait en anglais (ChatGPT a obtenu un score de 70.1 %, tandis que le score du nouveau modèle pour le thaï était de 71.8 %). Le score du test en anglais était le plus élevé, avec GPT-4 performant 10% mieux que les autres modèles, y compris le plus grand PaLM de Google. Il a obtenu un score de 86.4 %, tandis qu'un groupe d'experts — 90 %.

  • D'ici l'été 2023, l'IA pourrait avoir atteint un nouveau niveau de puissance grâce à ChatGPT, un chatbot qui utilise l'algorithme GPT-4 et surpasse GPT-3 par un facteur de 570. Divers éléments contribuent à ChatGPTdu succès de , y compris sa conception plus « humaine » et son utilisation de l'exploration de données de pointe et du traitement du langage naturel pour accroître son efficacité et sa précision.
  • Microsoft et OpenAI ont annoncé le renouvellement de leur collaboration et prévoient que Bing Search adopte des capacités de recherche améliorées par l'IA en janvier. Le remplaçant très sophistiqué du modèle GPT3.5, GPT4, vient d'être lancé, et il a le potentiel d'améliorer considérablement la capacité de recherche Bing à comprendre les requêtes en langage naturel et à fournir des résultats plus précis. C'est une bonne idée d'avoir un bon plan de sauvegarde en cas de problème.

Lire plus d'actualités liées :

Avertissement

Toute donnée, texte ou autre contenu de cette page est fourni à titre d'information générale sur le marché et non à titre de conseil en investissement. Les performances passées ne sont pas nécessairement un indicateur des résultats futurs.


Le projet Trust est un groupe mondial d'organisations de presse travaillant à établir des normes de transparence.

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Recherche CGV : avancées technologiques et perspectives d'avenir de Telegram Open Network (TON)

Le passé de TL;DR TON En 2018, les fondateurs de Telegram, les frères Durov, ont commencé à explorer des solutions blockchain adaptées...

En savoir plus

20 startups d'IA les plus sous-estimées en 2023 : classées par financement

L’IA reste un point central constant pour les investisseurs et les entrepreneurs. Alors que les projecteurs se tournent souvent vers...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Meta présente 28 personnages IA et AI Studio pour une créativité étendue
Rapport de nouvelles Technologie
Meta présente 28 personnages IA et AI Studio pour une créativité étendue
27 septembre 2023
Meta dévoile une intégration impressionnante de l'IA dans tous les services, du modèle Emu génératif aux lunettes intelligentes
Businesss Rapport de nouvelles Technologie
Meta dévoile une intégration impressionnante de l'IA dans tous les services, du modèle Emu génératif aux lunettes intelligentes
27 septembre 2023
OpenAI Développe ChatGPTCapacités de avec la navigation Web
Businesss Rapport de nouvelles
OpenAI Développe ChatGPTCapacités de avec la navigation Web
27 septembre 2023
Recherche CGV : avancées technologiques et perspectives d'avenir de Telegram Open Network (TON)
Opinion Technologie
Recherche CGV : avancées technologiques et perspectives d'avenir de Telegram Open Network (TON)
27 septembre 2023
Ce que vous
Dois savoir

Abonnez-vous à notre newsletter.
Informations quotidiennes sur le marketing de recherche pour les professionnels avertis.

CRYPTOMERIA LABS PTE. LTD.