GPT-4 Surperforme GPT-3.5 À tous les niveaux, sur une variété de critères d'étude
En bref
Les GPT-4 a atteint un seuil de note plus élevé que le GPT-3.5 sur une variété de points de repère.
Il s'agit d'une réalisation majeure car elle montre que les machines sont non seulement capables d'une intelligence de type humain, mais peuvent également nous surpasser, ce qui soulève des questions sur l'avenir de l'IA et son impact potentiel sur le marché du travail.
GPT-4 est largement surpassé par les modèles de pointe (SOTA), y compris ceux qui utilisent des protocoles de formation supplémentaires ou une conception spécifique à un benchmark, ainsi que par les grands modèles de langage existants.
Les GPT-4 a obtenu des scores plus élevés que le GPT-3.5 sur une variété de points de repère. Il s’agit d’une avancée majeure pour les machines, car cela prouve qu’elles peuvent désormais non seulement résoudre des problèmes pour lesquels elles ont été conçues à l’origine, mais qu’elles peuvent également le faire mieux que les étudiants universitaires.
Il y a quelques éléments à prendre en considération lorsque l’on examine ce résultat. Premièrement, le GPT-4 n’a reçu aucune formation spécifique pour ces examens. Il a procédé en utilisant les tests accessibles au public les plus récents (dans le cas des Olympiades et des questions à réponse libre AP) ou en achetant les éditions 2022-2023 des examens pratiques. Deuxièmement, il est important de noter que GPT-4Les performances de ne reflètent pas nécessairement les capacités des candidats humains, car il fonctionne selon un ensemble différent de principes et d'algorithmes.
Il s'agit d'une réalisation majeure car ça montre que les machines sont non seulement capables d'une intelligence semblable à celle de l'homme, mais qu'elles peuvent aussi nous surpasser. Cela ouvre la voie à un avenir où les machines peuvent assumer des tâches de plus en plus complexes, menant finalement à un avenir dans lequel elles peuvent nous aider dans notre vie quotidienne.
Lire la suite: 5+ modèles d'IA texte-image les plus attendus de 2023 |
GPT-4, par exemple, réussit un examen simulé du barreau avec un score parmi les 10 % des meilleurs candidats ; GPT-3Le score de .5 se situait dans les 10 % inférieurs. Cette amélioration significative de GPT-4Les performances de sont dues à ses données de formation plus volumineuses et à son architecture améliorée. Il devrait avoir un large éventail d'applications dans divers domaines, notamment le traitement du langage naturel et l'écriture automatisée.
La majorité des modèles de pointe (SOTA), y compris ceux qui peuvent utiliser des protocoles de formation supplémentaires ou une conception spécifique à des références, ainsi que les grands modèles de langage, sont nettement surperformés par GPT-4.
En interne, les développeurs ont utilisé GPT-4, ce qui a eu un impact significatif sur des activités telles que la programmation, les ventes, le support et la modération du contenu. La deuxième étape de notre méthode d'alignement est maintenant en cours, car les développeurs l'utilisent pour aider les humains à examiner les résultats de l'IA.
L'ensemble de données MMLU (Massive Multi-Task Language Understanding) contient des questions sur un très large éventail de sujets sur la compréhension du langage dans différentes tâches (couvrant 57 domaines, y compris les mathématiques, la biologie, le droit, les sciences sociales et humaines, etc.). Il y a quatre réponses possibles à la question, dont l'une est correcte. C'est-à-dire que les devinettes aléatoires montrent un résultat de 25% de réponses correctes. Voir l'image ci-dessous pour des exemples de questions et leurs difficultés. La personne-marqueur moyenne (c'est-à-dire qu'il ne s'agit pas d'un scientifique, ni d'un professeur - une personne ordinaire qui travaille au clair de lune en guise de balisage) répond correctement à 35 % des questions ; cependant, les experts peuvent atteindre un score de +/- 90 %.
Lire la suite: 5 raisons d'utiliser Bing sur Google alimenté par l'IA |
À l’origine, l’ensemble des données était en anglais. Mais que se passe-t-il si les questions et les réponses sont traduites dans d’autres langues, notamment dans les langues les moins courantes ? Le modèle fonctionnera-t-il pour eux d’une manière ou d’une autre ? Dans ce test, le service Microsoft Azure Translate a été utilisé pour la traduction. Les traductions ne sont pas parfaites ; dans certains cas, des informations importantes sont perdues. Cependant, même dans ce cas, le GPT-4 fonctionne bien dans d’autres langues. Dans les versions traduites du MMLU, GPT-4 surpasse le niveau d'anglais des autres grands modèles (y compris celui de Google) dans 24 des 26 langues examinées.
Quoi de plus, GPT-4 fonctionne mieux dans des langues rares que ChatGPT fait en anglais (ChatGPT a obtenu un score de 70.1%, tandis que le score du nouveau modèle pour le thaïlandais était de 71.8%). Le score au test d'anglais était le plus élevé, avec GPT-4 performant 10 % mieux que les autres modèles, y compris le plus grand PaLM de Google. Il a obtenu un score de 86.4 %, tandis qu'un groupe d'experts – 90 %.
- D'ici l'été 2023, l'IA pourrait avoir atteint un nouveau niveau de puissance grâce à ChatGPT, un chatbot qui utilise le GPT-4 algorithme et surperforme GPT-3 par un facteur de 570. Divers éléments contribuent à ChatGPTdu succès de , y compris sa conception plus « humaine » et son utilisation de l'exploration de données de pointe et du traitement du langage naturel pour accroître son efficacité et sa précision.
- Microsoft et OpenAI a annoncé le renouvellement de sa collaboration et son intention d'adopter des capacités de recherche améliorées par l'IA en janvier. Le très sophistiqué GPTRemplacement du modèle 3.5, GPT4, vient d'être lancé, et il a le potentiel d'améliorer considérablement la capacité de recherche Bing à comprendre les requêtes en langage naturel et à fournir des résultats plus précis. C'est une bonne idée d'avoir un bon plan de sauvegarde en cas de problème.
Lire plus d'actualités liées :
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.