Rapport de nouvelles Technologie
15 mars 2023

Facebook développe une nouvelle méthode pour doubler les performances des transformateurs d'IA

En bref

Facebook a développé une nouvelle méthode pour doubler les performances des transformateurs IA basée sur l'architecture des transformateurs.

La nouvelle méthode trouve les correctifs les plus similaires dans les écarts entre le traitement de différents blocs et les combine pour réduire la complexité de calcul.

Facebook a développé un nouvelle méthode pour doubler les performances des transformateurs AI. La méthode est basé sur l'architecture du transformateur et est spécialement conçu pour les textes longs tels que les livres, les articles et les blogs. L'objectif du nouveau transformateur AI est d'améliorer les performances de modèles basés sur des transformateurs sur le texte long en les rendant plus efficaces pour gérer les longues séquences. Les résultats du transformateur AI sont très prometteurs, et cette nouvelle méthode a une chance d'aider à améliorer les performances des modèles basés sur des transformateurs sur une variété de tâches.

Cette nouvelle méthode devrait avoir un impact significatif sur les tâches de traitement du langage naturel, telles que la traduction, le résumé et les systèmes de questions-réponses. Cela devrait également conduire au développement de modèles d'IA plus sophistiqués capables de gérer des textes plus longs et plus complexes.

Facebook a développé une nouvelle méthode pour doubler les performances des transformateurs d'IA
Lire la suite: 10+ meilleurs éditeurs de photos AI 2023 : en ligne et gratuits

Pour traiter l'image, des transformateurs modernes la découpent en patchs (généralement des carrés : voir le gif ci-dessous) puis opèrent sur des représentations de ces particules, dont chacune est représentée par un « jeton ». Les transformateurs, comme nous le savons, fonctionnent plus lentement plus il y a de ces pièces symboliques (cela s'applique à la fois aux textes et aux images), et le transformateur le plus courant a une relation quadratique. Autrement dit, plus les jetons sont ajoutés, plus le traitement devient lent. Pour résoudre ce problème, les chercheurs ont proposé diverses techniques pour réduire le nombre de jetons nécessaires au traitement des images, telles que la mise en commun hiérarchique et adaptative. Ces méthodes visent à maintenir la qualité de la sortie tout en minimisant le coût de calcul.

La nouvelle méthode trouve les correctifs les plus similaires dans les écarts entre le traitement de différents blocs et les combine pour réduire la complexité de calcul. La part des jetons fusionnés est un hyperparamètre ; plus il est élevé, plus la qualité est faible mais aussi plus l'accélération est élevée. Les expériences montrent qu'il est possible de fusionner environ 40 % des jetons avec une perte de qualité de 0.1 à 0.4 % et d'obtenir une double accélération (consommant ainsi moins de mémoire). Cette nouvelle méthode est une solution prometteuse pour réduire la complexité de calcul du traitement d'image et pourrait permettre un traitement plus rapide et plus efficace sans compromettre la qualité de la sortie finale.

Lorsque nous visualisons les patchs que nous fusionnons, nous pouvons voir qu'ils sont 1) proches les uns des autres et 2) décrivent le même objet (voir les zones de la même couleur sur le GIF). C'est-à-dire qu'aucune information significative n'est perdue ; l'objet reste « dans le champ de vision » du modèle. Plus cela est appliqué tard dans le transformateur, plus les jetons sont fusionnés (puisqu'il s'agit de représentations de niveau supérieur qui elles-mêmes décrivent bien le contenu de l'image).

De telles approches d'ingénierie basées sur l'ingéniosité et la compréhension du fonctionnement de quelque chose semblent très attrayantes. De plus, les développeurs de Meta promettent d'apporter plus à StableDiffusion afin d'accélérer les choses là-bas également. C'est génial que, parce que les transformateurs sont partout, de telles astuces puissent être rapidement mises en œuvre dans une large gamme de modèles. Cela montre que les solutions d'ingénierie ont le potentiel d'avoir un large impact dans diverses industries. Il sera intéressant de voir comment ces progrès dans modèles de transformateur continuera d'évoluer et de s'améliorer au fil du temps.

  • Méta IA et Paperswithcode ont publié le premier modèle 120B Galactica formé sur des textes scientifiques, permettant des prédictions plus précises et plus rapides. L'objectif de Galactica est d'aider les chercheurs à séparer l'important de l'inutile.

Lire plus d'actualités liées :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
La Brochure Rapport de nouvelles Technologie
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
3 mai 2024
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
Marchés Rapport de nouvelles Technologie
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
3 mai 2024
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
Marchés Rapport de nouvelles Technologie
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
3 mai 2024
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
La Brochure Rapport de nouvelles Technologie
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
3 mai 2024
CRYPTOMERIA LABS PTE. LTD.