11 juillet 2023

GPT-4Les détails divulgués de . mettent en lumière son échelle massive et son architecture impressionnante

Publié : 11 juillet 2023 à 7h19 Mise à jour : 11 juillet 2023 à 7h23

Edité et vérifié : 11 juillet 2023 à 7h19

En bref

Les informations divulguées sur GPT-4 a suscité l’enthousiasme de la communauté de l’IA. Avec plus de 10 fois les paramètres de son prédécesseur, GPT-3, GPT-4 On estime qu’il compte 1.8 billion de paramètres répartis sur 120 couches.

OpenAI a mis en œuvre un modèle de mélange d'experts (MoE), utilisant 16 experts avec 111 milliards de paramètres pour les perceptrons multicouches (MLP). Le processus d'inférence efficace du modèle utilise 280 milliards de paramètres et 560 TFLOP par passe avant, démontrant OpenAIs'engage à maximiser l'efficacité et la rentabilité. L'ensemble de données d'entraînement du modèle comprend 13 8 milliards de jetons, avec un réglage fin de 32 XNUMX à XNUMX XNUMX.

OpenAI utilisé le parallélisme dans GPT-4 pour exploiter tout le potentiel de leurs GPU A100, en utilisant un parallélisme tenseur à 8 voies et un parallélisme pipeline à 15 voies. Le processus de formation était vaste et gourmand en ressources, avec des coûts allant de 32 millions à 63 millions de dollars.

GPT-4Le coût d'inférence de est environ trois fois plus élevé que celui de son prédécesseur, mais il intègre également une attention multi-requêtes, un traitement par lots continu et un décodage spéculatif. L'architecture d'inférence fonctionne sur un cluster de 128 GPU, répartis sur plusieurs centres de données.

La récente fuite de détails entourant GPT-4 a envoyé une onde de choc à travers la communauté de l’IA. Les informations divulguées, obtenues auprès d'une source non divulguée, donnent un aperçu des capacités impressionnantes et de l'ampleur sans précédent de ce modèle révolutionnaire. Nous décomposerons les faits et dévoilerons les aspects clés qui font que GPT-4 une véritable merveille technologique.

GPT-4Les détails divulgués de . mettent en lumière son échelle massive et son architecture impressionnante — Crédit: Metaverse Post (mpost.io)

GPT-4Le nombre massif de paramètres de

L’une des révélations les plus frappantes de cette fuite est l’ampleur même de GPT-4. Il possède une taille étonnante, avec des paramètres plus de 10 fois supérieurs à ceux de son prédécesseur, GPT-3. On estime qu'il y a un total stupéfiant d'environ 1.8 milliards de paramètres répartis sur 120 couches impressionnantes. Cette augmentation substantielle de l'échelle contribue sans aucun doute à GPT-4les capacités améliorées de et le potentiel d'avancées révolutionnaires.

Modèle de mélange d'experts (MoE)

Pour assurer des coûts raisonnables tout en maintenant des performances exceptionnelles, OpenAI mis en œuvre un modèle mixte d’experts (MoE) dans GPT-4. En utilisant 16 experts au sein du modèle, chacun comprenant environ 111 milliards de paramètres pour les perceptrons multicouches (MLP), OpenAI optimisation efficace de l'allocation des ressources. Notamment, lors de chaque passage vers l'avant, seuls deux experts sont acheminés, ce qui minimise les besoins de calcul sans compromettre les résultats. Cette approche innovante démontre OpenAIs'engage à maximiser l'efficacité et la rentabilité de ses modèles.

Fuite très intéressante et détaillée du GPT-4 architecture, avec une excellente analyse du raisonnement qui la sous-tend et de ses implications – par @dylan522p :https://t.co/eHE7VlGY5V

Un résumé non payant peut être trouvé ici : https://t.co/rLxw5s9ZDt
– Jan P. Harries (@jphme) 11 juillet 2023

Algorithme de routage MoE simplifié

Alors que le modèle explore souvent des algorithmes de routage avancés pour sélectionner des experts pour gérer chaque jeton, OpenAIl'approche de dans le courant GPT-4 Le modèle serait plus simple. L’algorithme de routage utilisé par l’IA est censé être relativement simple, mais néanmoins efficace. Environ 55 milliards de paramètres partagés à surveiller facilitent la distribution efficace des jetons aux experts appropriés au sein du modèle.

Inférence efficace

GPT-4Le processus d'inférence de met en valeur son efficacité et ses prouesses informatiques. Chaque passage direct, dédié à la génération d'un seul jeton, utilise environ 280 milliards de paramètres et 560 TFLOP (téra opérations à virgule flottante par seconde). Cela contraste fortement avec l’immense ampleur des GPT-4, avec ses 1.8 3,700 milliards de paramètres et XNUMX XNUMX TFLOP par passe avant dans un modèle purement dense. L’utilisation efficace des ressources met en évidence OpenAIl'engagement de pour atteindre des performances optimales sans exigences de calcul excessives.

Vaste ensemble de données de formation

GPT-4 a été formé sur un ensemble de données colossal comprenant environ 13 XNUMX milliards de jetons. Il est important de noter que ces jetons incluent à la fois des jetons uniques et des jetons représentant des numéros d’époque. Le processus de formation comprend deux époques pour les données textuelles et quatre époques pour les données codées. OpenAI a exploité des millions de lignes d'instructions pour affiner les données provenant de ScaleAI et en interne pour affiner les performances du modèle.

La phase de pré-formation de GPT-4 utilisé une longueur de contexte de 8k. Par la suite, le modèle a été affiné, aboutissant à la version 32k. Cette progression s'appuie sur la phase de pré-formation, améliorant les capacités du modèle et l'adaptant à des tâches spécifiques.

Mise à l'échelle avec des GPU via le parallélisme

OpenAI exploité la puissance du parallélisme dans GPT-4 pour exploiter tout le potentiel de leurs GPU A100. Ils ont utilisé un parallélisme tenseur à 8 voies, qui maximise le traitement parallèle, car c'est la limite pour NVLink. De plus, le parallélisme des pipelines à 15 voies a été utilisé pour améliorer encore les performances. Bien que des techniques spécifiques telles que ZeRo Stage 1 aient probablement été utilisées, la méthodologie exacte reste inconnue.

Défis liés au coût et à l'utilisation de la formation

Formation GPT-4 était une entreprise vaste et exigeante en ressources. OpenAI a alloué environ 25,000 100 GPU A90 sur une période de 100 à 32 jours, fonctionnant à un taux d'utilisation d'environ 36 % à 1 % de MFU (le plus fréquemment utilisé). Le processus de formation a connu de nombreux échecs, nécessitant de fréquents redémarrages à partir des points de contrôle. S'il est estimé à 100 $ par heure AXNUMX, le frais de formation pour cette seule course s'élèverait à environ 63 millions de dollars.

Compromis dans le mélange d'experts

La mise en œuvre d’un modèle mixte d’experts présente plusieurs compromis. Dans le cas d GPT-4, OpenAI opté pour 16 experts au lieu d'un nombre plus élevé. Cette décision reflète un équilibre entre l'obtention de résultats de perte supérieurs et la garantie d'une généralisation sur diverses tâches. Plus d'experts peuvent présenter des défis en termes de généralisation et de convergence des tâches. OpenAIle choix de faire de l'exercice prudence chez l'expert sélection correspond à leur engagement envers des performances fiables et robustes.

Coût d'inférence

Par rapport à son prédécesseur, le modèle Davinci à 175 milliards de paramètres, GPT-4Le coût d'inférence de est environ trois fois plus élevé. Cet écart peut être attribué à plusieurs facteurs, notamment aux clusters plus grands requis pour prendre en charge GPT-4 et la faible utilisation obtenue lors de l'inférence. Les estimations indiquent un coût approximatif de 0.0049 $ pour 1,000 128 jetons pour 100 GPU A0.0021 et de 1,000 $ pour 128 100 jetons pour XNUMX GPU HXNUMX en déduisant GPT-4 avec un 8k. Ces chiffres supposent une utilisation décente et des tailles de lots élevées, des considérations cruciales pour l'optimisation des coûts.

Attention multi-requêtes

OpenAI exploite l'attention multi-requêtes (MQA), une technique largement utilisée dans le domaine, dans GPT-4 aussi. En implémentant MQA, le modèle ne nécessite qu'une seule tête, ce qui réduit considérablement la capacité mémoire nécessaire au cache clé-valeur (cache KV). Malgré cette optimisation, il faut noter que le batch 32k GPT-4 ne peut pas être hébergé sur des GPU A40 de 100 Go, et le 8k est limité par la taille maximale du lot.

Dosage continu

Pour trouver un équilibre entre la latence et les coûts d'inférence, OpenAI intègre à la fois des tailles de lots variables et des lots continus GPT-4. Cette approche adaptative permet un traitement flexible et efficace, optimisant l'utilisation des ressources et réduisant les frais de calcul.

GPT-4 introduit un encodeur de vision séparé à côté de l'encodeur de texte, présentant une attention croisée entre les deux. Cette architecture, qui rappelle Flamingo, ajoute des paramètres supplémentaires au nombre déjà impressionnant de 1.8 billion de paramètres de GPT-4. Le modèle de vision fait l'objet d'un réglage fin séparé à l'aide d'environ 2 XNUMX milliards de jetons après la phase de pré-formation en texte uniquement. Cette capacité de vision permet agents autonomes pour lire des pages Web, transcrire des images et interpréter du contenu vidéo : un atout inestimable à l'ère des données multimédias.

Décodage spéculatif

Un aspect intéressant de GPT-4La stratégie d'inférence de est l'utilisation possible du décodage spéculatif. Cette approche implique l'emploi d'un système plus petit et plus rapide. modèle pour générer des prédictions pour plusieurs jetons à l'avance. Ces jetons prédits sont ensuite introduits dans un modèle "oracle" plus grand en un seul lot. Si le plus petit prédictions du modèle conformément à l'accord du plus grand modèle, plusieurs jetons peuvent être décodés ensemble. Cependant, si le plus grand modèle rejette les jetons prédits par le modèle préliminaire, le reste du lot est ignoré et l'inférence se poursuit uniquement avec le plus grand modèle. Cette approche permet un décodage efficace tout en acceptant potentiellement des séquences à faible probabilité. Il convient de noter que cette spéculation reste pour le moment non vérifiée.

Architecture d'inférence

GPT-4Le processus d'inférence de fonctionne sur un cluster de 128 GPU, répartis dans plusieurs centres de données situés à différents endroits. Cette infrastructure utilise un parallélisme tenseur à 8 voies et un parallélisme pipeline à 16 voies pour maximiser l'efficacité des calculs. Chaque nœud, composé de 8 GPU, héberge environ 130 milliards de paramètres. Avec une taille de modèle de 120 couches, GPT-4 peut s'insérer dans 15 nœuds différents, éventuellement avec moins de couches dans le premier nœud en raison de la nécessité de calculer les intégrations. Ces choix architecturaux facilitent l'inférence haute performance, démontrant OpenAIl'engagement de repousser les limites de l'efficacité informatique.

Taille et composition des ensembles de données

GPT-4 a été formé sur un nombre impressionnant de 13 XNUMX milliards de jetons, lui fournissant ainsi un vaste corpus de textes sur lequel apprendre. Cependant, tous les jetons ne peuvent pas être pris en compte par les ensembles de données connus utilisés lors de la formation. Bien que des ensembles de données comme CommonCrawl et RefinedWeb contribuent pour une part importante données d'entraînement, il reste une partie des jetons qui ne sont pas comptabilisés, souvent appelés les données « secrètes ».

Rumeurs et spéculations

Des spéculations ont émergé quant à l’origine de ces données non divulguées. Une rumeur suggère qu'il inclut du contenu provenant de plateformes populaires telles que Twitter, Reddit et YouTube, soulignant l'influence potentielle du contenu généré par les utilisateurs dans l'élaboration du contenu. GPT-4la base de connaissances de. De plus, il existe des conjectures concernant l’inclusion de vastes collections comme LibGen, un référentiel de millions de livres, et Sci-Hub, une plateforme donnant accès à de nombreux articles scientifiques. L'idée que GPT-4 a été formé sur l’intégralité de GitHub et a également circulé parmi les passionnés d’IA.

L'avis du journaliste

Même si les rumeurs sont nombreuses, il est important de les aborder avec prudence. La formation de GPT-4 ont peut-être grandement bénéficié d’un ensemble de données spécial composé de manuels universitaires. Cet ensemble de données, qui couvre un large éventail de cours et de sujets, aurait pu être minutieusement assemblé à la main. Les manuels universitaires fournissent une base de connaissances structurée et complète qui peut être utilisée avec succès pour former un modèle de langage et qui est facilement convertible en fichiers texte. L'inclusion d'un tel ensemble de données pourrait donner l'impression que GPT-4 est compétent dans une variété de domaines.

La fascination pour GPT-4Les connaissances de

Un aspect fascinant de GPT-4La formation de est sa capacité à montrer sa familiarité avec des livres spécifiques et même à rappeler des identifiants uniques de plateformes comme le Projet Euler. Les chercheurs ont tenté d'extraire des sections mémorisées de livres de GPT-4 pour avoir un aperçu de sa formation, alimentant ainsi la curiosité sur le fonctionnement interne du modèle. Ces découvertes mettent en évidence l’étonnante capacité de GPT-4 pour conserver les informations et souligner les capacités impressionnantes des modèles linguistiques à grande échelle.

La polyvalence de GPT-4

Le large éventail de sujets et de domaines qui GPT-4 peut apparemment s'engager avec montre sa polyvalence. Qu'il s'agisse de répondre à des questions complexes en informatique ou de se plonger dans des débats philosophiques, GPT-4La formation de sur un ensemble de données diversifié lui permet d'interagir avec des utilisateurs de divers domaines. Cette polyvalence découle de son exposition à une vaste gamme de ressources textuelles, ce qui en fait un outil précieux pour un large éventail d'utilisateurs.

En savoir plus sur l'IA :

Mots clés:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.

Plus d'articles

Damir Yalalov