Rapport de nouvelles Technologie
12 septembre 2023

FLM-101B : un modèle de langage extrêmement rentable à l'échelle 101B rivalise avec les principaux modèles d'IA

En bref

Le LLM chinois, LM-101B, peut être entraîné avec un budget de 100 XNUMX $, atteignant des performances comparables à celles de modèles bien connus comme GPT-3 et GLM-130B.

Des chercheurs chinois ont dévoilé un nouveau LLM, le FLM-101B, un LLM uniquement décodeur doté de 101 milliards de paramètres remarquables. Ce développement offre une alternative rentable pour la recherche et les applications pratiques.

FLM-101B : un modèle de langage très rentable à l'échelle 101B rivalise avec les principaux modèles d'IA
Connexe: Les coûts de formation des modèles d'IA devraient passer de 100 à 500 millions de dollars d'ici 2030

Ce qui distingue le FLM-101B, ce sont ses performances exceptionnelles obtenues avec un budget relativement modeste. S'il est bien connu que former des LLM à partir de zéro peut nécessiter des investissements astronomiques, les créateurs du FLM-101B ont montré qu'il est possible de former un modèle avec 101 milliards de paramètres avec seulement un budget de 100 XNUMX $.

Les résultats expérimentaux sont tout simplement impressionnants. Le FLM-101B a démontré des niveaux de performances comparables à ceux établis et gourmands en ressources. des modèles comme GPT-3 et GLM-130B. Cette comparaison met en évidence l'énorme potentiel de ce modèle rentable, en particulier sur les tests de QI avec des contextes complexes non présents dans les données d'entraînement.

Dans une démarche qui souligne leur engagement à faire progresser la recherche et le développement en IA, les créateurs du FLM-101B ont rendu ce modèle open source. Les chercheurs et les développeurs du monde entier peuvent désormais accéder à ce LLM à l'échelle 101B et l'exploiter pour diverses applications, couvrant à la fois le chinois et l'anglais.

Le modèle FLM-101B utilise une approche de formation unique. Il accumule rapidement des connaissances à partir d'un modèle plus petit de 16 milliards de paramètres dans les premières étapes de la formation et évolue progressivement jusqu'à 101 milliards de paramètres. Cette approche progressive réduit considérablement les coûts de formation, ce qui la rend financièrement réalisable pour un plus large éventail de projets.

L'une des caractéristiques remarquables du FLM-101B est sa prise en charge d'une expansion efficace de la taille de la fenêtre pendant l'inférence. Ceci est réalisé grâce à l'utilisation de l'intégration de position rotative xPos, permettant au modèle de gérer un contexte plus large, améliorant ainsi son adaptabilité et sa convivialité.

FLM-101B a été formé sur un cluster de 24 serveurs GPU DGX-A800 en moins de 26 jours. Cet exploit impressionnant souligne l’évolutivité du modèle et l’utilisation efficace des ressources. La base de code de formation du modèle, adaptée de Megatron-LM, sera bientôt disponible en open source, fournissant des informations précieuses à la communauté de l'IA.

Les créateurs du FLM-101B reconnaissent les limites potentielles, notamment l'exposition du modèle à des exemples dangereux dans le corpus de formation en raison de la nature ouverte de l'ensemble de données. Cette mise en garde rappelle l’importance d’une utilisation responsable de l’IA et modération du contenu.

Bien que le FLM-101B ait obtenu des résultats remarquables, les créateurs reconnaissent des points à améliorer. Le processus d'inférence du modèle, bien que puissant, n'est pas encore entièrement optimisé, ce qui entraîne une utilisation plus élevée des ressources et une vitesse réduite. Cependant, des plans sont en cours pour introduire Flash Attention dans l'inférence, répondant ainsi à cette limitation.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Nexo lance « The Hunt » pour récompenser les utilisateurs avec 12 millions de dollars en jetons NEXO pour leur engagement dans son écosystème
Marchés Rapport de nouvelles Technologie
Nexo lance « The Hunt » pour récompenser les utilisateurs avec 12 millions de dollars en jetons NEXO pour leur engagement dans son écosystème
8 mai 2024
Revolut X Exchange de Revolut séduit les traders de crypto avec des frais de création nuls et des analyses avancées
Marchés Logiciels Histoires et critiques Technologie
Revolut X Exchange de Revolut séduit les traders de crypto avec des frais de création nuls et des analyses avancées
8 mai 2024
La plateforme de trading de crypto BitMEX lance le trading d'options sans frais ni incitations en espèces
La Brochure Marchés Rapport de nouvelles
La plateforme de trading de crypto BitMEX lance le trading d'options sans frais ni incitations en espèces
8 mai 2024
Lisk passe officiellement à Ethereum Layer 2 et dévoile Core v4.0.6
Rapport de nouvelles Technologie
Lisk passe officiellement à Ethereum Layer 2 et dévoile Core v4.0.6
8 mai 2024
CRYPTOMERIA LABS PTE. LTD.