Rapport de nouvelles Technologie
06 février 2023

XLM-V : une nouvelle méthode de modèles de langage masqué multilingue qui tente de résoudre le problème du goulot d'étranglement du vocabulaire

En bref

L'article soulève le problème suivant : modèles de langage augmenter les paramètres, grandir en profondeur, mais le vocabulaire est toujours le même en taille.

Les chercheurs commencent à former un nouveau modèle avec 1 million de jetons du vocabulaire d'une manière inattendue.

Les chercheurs étaient déterminés à voir quel type d'amélioration ils pourraient apporter avec une augmentation aussi significative des jetons.

La question soulevée par le article intitulé « XLM-V : Surmonter le goulot d'étranglement du vocabulaire dans les modèles de langage masqué multilingue » est que lorsque les paramètres et la profondeur des modèles de langage augmentent, la taille de leur vocabulaire reste inchangée. Par exemple, le modèle mT5 a des paramètres 13B mais un vocabulaire de 250 100 mots qui prend en charge plus de 2,500 langues. Ainsi, chaque langue compte environ XNUMX XNUMX jetons uniques, ce qui est évidemment un très petit nombre.

XLM-V : une nouvelle méthode de modèles de langage masqué multilingue qui tente de résoudre le problème du goulot d'étranglement du vocabulaire
@ Midjourney / Shalv

Quelles actions les auteurs entreprennent-ils ? Ils commencent à former un nouveau modèle avec 1 million de jetons du vocabulaire d'une manière inattendue. XLM-R existait auparavant, cependant, avec cette mise à jour, il deviendra XLM-V. Les écrivains étaient déterminés à voir quel type d'amélioration ils pourraient apporter avec une augmentation aussi significative des jetons.

Article connexe: Les coûts de formation des modèles d'IA devraient passer de 100 à 500 millions de dollars d'ici 2030

Qu'en est-il du XLM-V qui est nouveau par rapport au XLM-R ?

Qu'en est-il du XLM-V qui est nouveau par rapport au XLM-R ?

L'amélioration Modèles multilingues avec la méthode Language-Clustered Vocabularies permet de construire des vecteurs de représentation lexicaux pour chaque langue de la manière suivante : pour chaque langue de l'ensemble des langues, ils constituent un vecteur binaire dont chaque élément est un mot spécifique de la langue. L'un indique que le mot est inclus dans le dictionnaire de la langue (vous pouvez voir une image avec une description graphique dans les pièces jointes.) Cependant, en créant un vecteur utilisant la probabilité logarithmique négative d'occurrence de chaque lexème, les auteurs améliorent la façon dont les références sont faites .

  1. Les vecteurs sont ensuite regroupés. De plus, un modèle de phrase est formé sur chaque groupe particulier pour arrêter le transfert de vocabulaire entre des langues lexicalement sans rapport.
  2. L'ALP évalue la capacité d'un dictionnaire à représenter une langue spécifique.
  3. Utilisation de l'algorithme de création ULM dictionnaires est l'étape suivante. qui commence par un grand dictionnaire initial et le réduit progressivement jusqu'à ce que le nombre de jetons soit inférieur à un certain seuil de taille de dictionnaire.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
La Brochure Rapport de nouvelles Technologie
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
3 mai 2024
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
Marchés Rapport de nouvelles Technologie
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
3 mai 2024
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
Marchés Rapport de nouvelles Technologie
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
3 mai 2024
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
La Brochure Rapport de nouvelles Technologie
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
3 mai 2024
CRYPTOMERIA LABS PTE. LTD.