Le 12 juin 2023

Top 30+ des modèles de transformateurs en IA : ce qu'ils sont et comment ils fonctionnent

Publié : 12 juin 2023 à 6h52 Mise à jour : 12 juin 2023 à 6h52

Edité et vérifié : 12 juin 2023 à 6h52

Ces derniers mois, de nombreux modèles de Transformer ont émergé dans l'IA, chacun avec des noms uniques et parfois amusants. Cependant, ces noms pourraient ne pas fournir beaucoup d'informations sur ce que ces modèles font réellement. Cet article vise à fournir une liste complète et simple des modèles Transformer les plus populaires. Il classera ces modèles et présentera également des aspects et des innovations importants au sein de la famille Transformer. La liste supérieure couvrira modèles formés grâce à un apprentissage auto-supervisé, comme BERT ou GPT-3, ainsi que des modèles qui subissent une formation supplémentaire avec implication humaine, comme l'InstructGPT modèle utilisé par ChatGPT.

Pro Tips
Ce guide est conçu pour fournir des connaissances complètes et des compétences pratiques en ingénierie rapide pour les débutants aux apprenants avancés.
Il existe de nombreux cours disponible pour les personnes qui souhaitent en savoir plus sur l'IA et ses technologies associées.
Jetez un oeil à la Top 10+ des accélérateurs d'IA qui devraient dominer le marché en termes de performances.

Table des matières

Que sont les transformateurs en IA ?
Que sont les encodeurs et décodeurs en IA ?
Que sont les couches d'attention dans l'IA ?
Que sont les modèles affinés en IA ?
Pourquoi les Transformers sont-ils l'avenir de l'IA ?
3 types d'architectures de préformation
8 types de tâches pour les modèles pré-formés
Top 30+ Transformers en IA
FAQ

Que sont les transformateurs en IA ?

Les transformateurs sont un type de modèles d'apprentissage en profondeur qui ont été introduits dans un document de recherche intitulé "L'attention est tout ce dont vous avez besoin» par les chercheurs de Google en 2017. Cet article a acquis une immense reconnaissance, accumulant plus de 38,000 XNUMX citations en seulement cinq ans.

L'architecture Transformer d'origine est une forme spécifique de modèles d'encodeur-décodeur qui avait gagné en popularité avant son introduction. Ces modèles reposaient principalement sur LSTM et d'autres variantes des réseaux de neurones récurrents (RNN), l'attention n'étant qu'un des mécanismes utilisés. Cependant, l'article de Transformer a proposé une idée révolutionnaire selon laquelle l'attention pourrait servir de mécanisme unique pour établir des dépendances entre l'entrée et la sortie.

Que sont les transformateurs en IA ? — Crédit : dominodatalab.com

Dans le contexte de Transformers, l'entrée consiste en une séquence de jetons, qui peuvent être des mots ou des sous-mots dans le traitement du langage naturel (PNL). Les sous-mots sont couramment utilisés dans les modèles PNL pour résoudre le problème des mots hors vocabulaire. La sortie de l'encodeur produit une représentation à dimension fixe pour chaque jeton, ainsi qu'une intégration séparée pour la séquence entière. Le décodeur prend la sortie de l'encodeur et génère une séquence de jetons en sortie.

Depuis la publication de l'article Transformer, des modèles populaires comme BERT ainsi que les GPT ont adopté des aspects de l'architecture originale, soit en utilisant les composants de l'encodeur, soit du décodeur. La principale similitude entre ces modèles réside dans l’architecture des couches, qui intègre des mécanismes d’auto-attention et des couches de rétroaction. Dans Transformers, chaque jeton d'entrée parcourt son propre chemin à travers les couches tout en conservant des dépendances directes avec tous les autres jetons de la séquence d'entrée. Cette fonctionnalité unique permet un calcul parallèle et efficace de représentations contextuelles de jetons, une capacité impossible avec des modèles séquentiels tels que les RNN.

Bien que cet article ne fasse qu'effleurer la surface de l'architecture Transformer, il donne un aperçu de ses aspects fondamentaux. Pour une compréhension plus complète, nous vous recommandons de vous référer au document de recherche original ou à l'article The Illustrated Transformer.

Que sont les encodeurs et décodeurs en IA ?

Imaginez que vous avez deux modèles, un encodeur et un décodeur, travailler ensemble comme une équipe. L'encodeur prend une entrée et la transforme en un vecteur de longueur fixe. Ensuite, le décodeur prend ce vecteur et le transforme en une séquence de sortie. Ces modèles sont entraînés ensemble pour s'assurer que la sortie correspond le plus possible à l'entrée.

L'encodeur et le décodeur avaient plusieurs couches. Chaque couche de l'encodeur comportait deux sous-couches : une couche d'auto-attention multi-têtes et un simple réseau d'anticipation. La couche d'auto-attention aide chaque jeton dans l'entrée à comprendre les relations avec tous les autres jetons. Ces sous-couches ont également une connexion résiduelle et une normalisation de couche pour rendre le processus d'apprentissage plus fluide.

La multi-tête du décodeur couche d'auto-attention fonctionne un peu différemment de celui de l'encodeur. Il masque les jetons à droite du jeton sur lequel il se concentre. Cela garantit que le décodeur ne regarde que les jetons qui précèdent celui qu'il essaie de prédire. Cette attention masquée à plusieurs têtes aide le décodeur à générer des prédictions précises. De plus, le décodeur comprend une autre sous-couche, qui est une couche d'attention multi-tête sur toutes les sorties du codeur.

Il est important de noter que ces détails spécifiques ont été modifiés dans différentes variantes du modèle Transformer. Des modèles comme BERT et GPT, par exemple, sont basés sur l'aspect codeur ou décodeur de l'architecture d'origine.

Que sont les couches d'attention dans l'IA ?

Dans l'architecture du modèle dont nous avons parlé précédemment, les couches d'attention multi-têtes sont les éléments spéciaux qui la rendent puissante. Mais qu'est-ce que l'attention exactement ? Considérez-le comme une fonction qui associe une question à un ensemble d'informations et donne un résultat. Chaque jeton de l'entrée est associé à une requête, une clé et une valeur. La représentation de sortie de chaque jeton est calculée en prenant une somme pondérée des valeurs, où le poids de chaque valeur est déterminé par sa correspondance avec la requête.

Les transformateurs utilisent une fonction de compatibilité appelée produit scalaire mis à l'échelle pour calculer ces poids. La chose intéressante à propos de l'attention dans Transformers est que chaque jeton passe par son propre chemin de calcul, permettant un calcul parallèle de tous les jetons dans la séquence d'entrée. Il s'agit simplement de plusieurs blocs d'attention qui calculent indépendamment les représentations de chaque jeton. Ces représentations sont ensuite combinées pour créer la représentation finale du jeton.

Par rapport à d'autres types de réseaux comme les réseaux récurrents et réseaux convolutifs, les calques d'attention présentent quelques avantages. Ils sont efficaces sur le plan informatique, ce qui signifie qu'ils peuvent traiter les informations rapidement. Ils ont également une connectivité plus élevée, ce qui est utile pour capturer les relations à long terme dans les séquences.

Que sont les modèles affinés en IA ?

Modèles de fondation sont des modèles puissants formés sur une grande quantité de données générales. Ils peuvent ensuite être adaptés ou affinés pour des tâches spécifiques en les formant sur un plus petit ensemble de données spécifiques à la cible. Cette approche, popularisée par le Papier BERT, a conduit à la prédominance des modèles basés sur Transformer dans les tâches d'apprentissage automatique liées au langage.

Dans le cas de modèles comme BERT, ils produisent des représentations de jetons d'entrée mais n'accomplissent pas de tâches spécifiques par eux-mêmes. Pour les rendre utiles, des compléments couches neuronales sont ajoutés en haut et le modèle est formé de bout en bout, un processus connu sous le nom de réglage fin. Cependant, avec modèles génératifs comme GPT, l'approche est légèrement différente. GPT est un modèle de langage de décodage entraîné pour prédire le mot suivant dans une phrase. En vous formant sur de grandes quantités de données Web, GPT peut générer des sorties raisonnables basées sur des requêtes ou des invites d’entrée.

Pour faire GPT plus utile, OpenAI chercheurs développés InstruireGPT, qui est formé pour suivre les instructions humaines. Ceci est réalisé en affinant GPT en utilisant des données étiquetées par l'homme provenant de diverses tâches. InstruireGPT est capable d'effectuer un large éventail de tâches et est utilisé par des moteurs populaires comme ChatGPT.

Le réglage fin peut également être utilisé pour créer des variantes de modèles de fondation optimisés pour objectifs spécifiques au-delà de la modélisation du langage. Par exemple, il existe des modèles affinés pour les tâches sémantiques telles que la classification de texte et la récupération de recherche. De plus, les codeurs de transformateur ont été affinés avec succès dans le cadre d'applications multitâches cadres d'apprentissage pour effectuer plusieurs tâches sémantiques à l'aide d'un seul modèle partagé.

Aujourd'hui, le réglage fin est utilisé pour créer des versions de modèles de fondation qui peuvent être utilisées par un grand nombre d'utilisateurs. Le processus consiste à générer des réponses aux entrées invites et que les humains classent les résultats. Ce classement est utilisé pour former un modèle de récompense, qui attribue des scores à chaque sortie. Apprentissage par renforcement avec rétroaction humaine est ensuite utilisé pour former davantage le modèle.

Pourquoi les Transformers sont-ils l'avenir de l'IA ?

Les transformateurs, un type de modèle puissant, ont d'abord été démontrés dans le domaine de la traduction linguistique. Cependant, les chercheurs ont rapidement réalisé que les transformateurs pouvaient être utilisés pour diverses tâches liées au langage en les entraînant sur une grande quantité de texte non étiqueté, puis en les affinant sur un ensemble plus petit de données étiquetées. Cette approche a permis à Transformers de capturer des connaissances importantes sur le langage.

L'architecture Transformer, conçue à l'origine pour les tâches linguistiques, a également été appliquée à d'autres applications telles que générer des images, audio, musique et même actions. Cela a fait de Transformers un élément clé dans le domaine de l'IA générative, qui modifie divers aspects de la société.

La disponibilité d'outils et de cadres tels que PyTorch ainsi que les TensorFlow a joué un rôle crucial dans l'adoption généralisée des modèles Transformer. Des entreprises comme Huggingface ont construit leur affaires autour de l'idée de commercialiser des bibliothèques Transformer open source, et du matériel spécialisé comme les Hopper Tensor Cores de NVIDIA a encore accéléré la vitesse de formation et d'inférence de ces modèles.

Une application notable des transformateurs est ChatGPT, un chatbot publié par OpenAI. Il est devenu incroyablement populaire, atteignant des millions d'utilisateurs en peu de temps. OpenAI a également annoncé la sortie de GPT-4, une version plus puissante capable d'atteindre des performances humaines dans des tâches telles que examens médico-légaux.

L'impact des Transformers dans le domaine de l'IA et leur large éventail d'applications est indéniable. Ils ont transformé le chemin nous abordons les tâches liées au langage et ouvrons la voie à de nouvelles avancées dans l'IA générative.

3 types d'architectures de préformation

L'architecture Transformer, composée à l'origine d'un encodeur et d'un décodeur, a évolué pour inclure différentes variantes basées sur des besoins spécifiques. Décomposons ces variations en termes simples.

Préformation de l'encodeur: Ces modèles se concentrent sur la compréhension de phrases ou de passages complets. Pendant le pré-apprentissage, l'encodeur est utilisé pour reconstruire les jetons masqués dans la phrase d'entrée. Cela aide le modèle à apprendre à comprendre le contexte global. Ces modèles sont utiles pour des tâches telles que la classification de texte, l'implication et la réponse à des questions extractives.
Préformation du décodeur: Les modèles de décodeur sont formés pour générer le jeton suivant en fonction de la séquence de jetons précédente. Ils sont connus sous le nom de modèles de langage auto-régressifs. Les couches d'auto-attention dans le décodeur ne peuvent accéder qu'aux jetons avant un jeton donné dans la phrase. Ces modèles sont idéaux pour les tâches impliquant la génération de texte.
Préformation du transformateur (encodeur-décodeur): Cette variante combine à la fois les composants de l'encodeur et du décodeur. Les couches d'auto-attention de l'encodeur peuvent accéder à tous les jetons d'entrée, tandis que les couches d'auto-attention du décodeur ne peuvent accéder qu'aux jetons avant un jeton donné. Cette architecture permet au décodeur d'utiliser les représentations apprises par le codeur. Les modèles d'encodeur-décodeur sont bien adaptés aux tâches telles que le résumé, la traduction ou la réponse générative aux questions.

Les objectifs de préformation peuvent impliquer le débruitage ou la modélisation causale du langage. Ces objectifs sont plus complexes pour les modèles codeur-décodeur que pour les modèles codeur seul ou décodeur seul. L'architecture Transformer présente différentes variantes en fonction de l'orientation du modèle. Qu'il s'agisse de comprendre des phrases complètes, de générer du texte ou de combiner les deux pour diverses tâches, Transformers offre une flexibilité pour relever différents défis liés à la langue.

8 types de tâches pour les modèles pré-formés

Lors de la formation d'un modèle, nous devons lui donner une tâche ou un objectif à partir duquel apprendre. Il existe diverses tâches dans le traitement du langage naturel (TAL) qui peuvent être utilisées pour les modèles de préformation. Décomposons certaines de ces tâches en termes simples :

Modélisation du langage (LM) : le modèle prédit le jeton suivant dans une phrase. Il apprend à comprendre le contexte et à générer des phrases cohérentes.
Modélisation du langage causal : le modèle prédit le jeton suivant dans une séquence de texte, en suivant un ordre de gauche à droite. C'est comme un modèle de narration qui génère des phrases un mot à la fois.
Modélisation du langage de préfixe : le modèle sépare une section « préfixe » de la séquence principale. Il peut s'occuper de n'importe quel jeton dans le préfixe, puis génère le reste de la séquence de manière autorégressive.
Modélisation du langage masqué (MLM) : certains jetons dans les phrases d'entrée sont masqués et le modèle prédit les jetons manquants en fonction du contexte environnant. Il apprend à remplir les blancs.
Modélisation du langage permuté (PLM) : le modèle prédit le jeton suivant en fonction d'une permutation aléatoire de la séquence d'entrée. Il apprend à gérer différentes commandes de jetons.
Denoising Autoencoder (DAE) : le modèle prend une entrée partiellement corrompue et vise à récupérer l'entrée d'origine non déformée. Il apprend à gérer le bruit ou les parties manquantes du texte.
Détection de jeton remplacé (RTD) : le modèle détecte si un jeton provient du texte d'origine ou d'une version générée. Il apprend à identifier les jetons remplacés ou manipulés.
Prédiction de la phrase suivante (NSP) : le modèle apprend à distinguer si deux phrases d'entrée sont des segments continus à partir des données d'apprentissage. Il comprend la relation entre les phrases.

Ces tâches aident le modèle à apprendre la structure et la signification du langage. En se préformant sur ces tâches, les modèles acquièrent une bonne compréhension du langage avant d'être affinés pour des applications spécifiques.

Top 30+ Transformers en IA

Nom	Architecture de préformation	Tâche	Application	Développé par
ALBERT	Encoder	MLM/NSP	Identique au BERT	Google
Alpaga	Décodeur	LM	Tâches de génération et de classification de texte	Stanford
AlphaFold	Encoder	Prédiction du repliement des protéines	Repliement des protéines	Deepmind
Assistant anthropique (voir aussi)	Décodeur	LM	De la boîte de dialogue générale à l'assistant de code.	Anthropique
BART	Encodeur / décodeur	DAE	Tâches de génération et de compréhension de texte	Facebook
BERT	Encoder	MLM/NSP	Compréhension de la langue et réponse aux questions	Google
BlenderBot 3	Décodeur	LM	Tâches de génération et de compréhension de texte	Facebook
BLOOM	Décodeur	LM	Tâches de génération et de compréhension de texte	Grande science/Huggingface
ChatGPT	Décodeur	LM	Agents de dialogue	OpenAI
Chinchilla	Décodeur	LM	Tâches de génération et de compréhension de texte	Deepmind
CLIP	Encoder		Classification des images/objets	OpenAI
CTRL	Décodeur		Génération de texte contrôlable	Salesforce
DALL-E	Décodeur	Prédiction de légende	Texte à l'image	OpenAI
DALL-E-2	Encodeur / décodeur	Prédiction de légende	Texte à l'image	OpenAI
DeBERTa	Décodeur	MLM	Identique au BERT	Microsoft
Transformateurs de décision	Décodeur	Prochaine prédiction d'action	RL général (tâches d'apprentissage par renforcement)	Google/UC Berkeley/FAIR
DialoGPT	Décodeur	LM	Génération de texte dans les paramètres de dialogue	Microsoft
DistilBERT	Encoder	MLM/NSP	Compréhension de la langue et réponse aux questions	Visage étreignant
DQ-BART	Encodeur / décodeur	DAE	Génération et compréhension de texte	Amazon
Chariot	Décodeur	LM	Tâches de génération et de classification de texte	Databricks, Inc.
ERNIE	Encoder	MLM	Tâches connexes à forte intensité de connaissances	Diverses institutions chinoises
Flamingo	Décodeur	Prédiction de légende	Texte à l'image	Deepmind
Galactica	Décodeur	LM	AQ scientifique, raisonnement mathématique, résumé, génération de documents, prédiction de propriétés moléculaires et extraction d'entités.	Meta
GLISSER	Encoder	Prédiction de légende	Texte à l'image	OpenAI
GPT-3.5	Décodeur	LM	Dialogue et langage général	OpenAI
GPTInstruire	Décodeur	LM	Dialogue ou tâches linguistiques à forte intensité de connaissances	OpenAI
HTML	Encodeur / décodeur	DAE	Modèle de langage qui permet une invite HTML structurée	Facebook
Image	T5	Prédiction de légende	Texte à l'image	Google
LAMDA	Décodeur	LM	Modélisation générale du langage	Google
LLaMA	Décodeur	LM	Raisonnement de bon sens, réponse aux questions, génération de code et compréhension de lecture.	Meta
Minerva	Décodeur	LM	Raisonnement mathématique	Google
Paume	Décodeur	LM	Compréhension et génération du langage	Google
ROBERTa	Encoder	MLM	Compréhension de la langue et réponse aux questions	UW/Google
Moineau	Décodeur	LM	Agents de dialogue et applications générales de génération de langage comme Q&A	Deepmind
Diffusion stable	Encodeur / décodeur	Prédiction de légende	Texte à l'image	LMU Munich + Stabilité.ai + Eleuther.ai
Vicuna	Décodeur	LM	Agents de dialogue	UC Berkeley, CMU, Stanford, UC San Diego et MBZUAI

FAQ

Les transformateurs en IA sont un type de architecture d'apprentissage en profondeur qui a changé le traitement du langage naturel et d'autres tâches. Ils utilisent des mécanismes d'auto-attention pour capturer les relations entre les mots dans une phrase, leur permettant de comprendre et de générer un texte de type humain.

Les encodeurs et les décodeurs sont des composants couramment utilisés dans les modèles séquence à séquence. Les encodeurs traitent les données d'entrée, telles que le texte ou les images, et les convertissent en une représentation compressée, tandis que les décodeurs génèrent des données de sortie basées sur la représentation encodée, permettant des tâches telles que la traduction de la langue ou le sous-titrage d'images.

Les couches Attention sont des composants utilisés dans les réseaux de neurones, en particulier dans les modèles Transformer. Ils permettent au modèle de se concentrer de manière sélective sur différentes parties de la séquence d'entrée, en attribuant des poids à chaque élément en fonction de sa pertinence, ce qui permet de capturer efficacement les dépendances et les relations entre les éléments.

Les modèles affinés font référence à des modèles pré-formés qui ont été davantage formés sur une tâche ou un ensemble de données spécifique pour améliorer leurs performances et les adapter aux exigences spécifiques de cette tâche. Ce processus de réglage fin consiste à ajuster les paramètres du modèle pour optimiser ses prédictions et le rendre plus spécialisé pour la tâche cible.

Les transformateurs sont considérés comme l'avenir de l'IA car ils ont démontré des performances exceptionnelles dans un large éventail de tâches, notamment le traitement du langage naturel, la génération d'images, etc. Leur capacité à capturer les dépendances à longue portée et à traiter efficacement les données séquentielles les rend hautement adaptables et efficaces pour diverses applications, ouvrant la voie aux progrès de l'IA générative et révolutionnant de nombreux aspects de la société.

Les modèles de transformateurs les plus connus en IA incluent BERT (Bidirectionnel Encoder Representations from Transformers), GPT (Transformateur génératif pré-entraîné) et T5 (Transformateur de transfert de texte à texte). Ces modèles ont obtenu des résultats remarquables dans diverses tâches de traitement du langage naturel et ont gagné en popularité dans la communauté de recherche en IA.

En savoir plus sur l'IA :

Mots clés:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.

Plus d'articles

Damir Yalalov