Rapport de nouvelles Technologie
23 mai 2023

Meta a développé une IA vocale open source qui reconnaît plus de 4,000 XNUMX langues parlées

En bref

Le projet MMS de l'entreprise peut reconnaître plus de 4,000 XNUMX langues.

Comme la plupart de ses autres projets d'IA annoncés publiquement, Meta partage ses modèles et son code pour aider à préserver la diversité linguistique.

Par ce travail, ils espèrent apporter une petite contribution à la préservation de l'incroyable diversité linguistique du monde.

Meta a créé un modèle de langage d'IA qui constitue une version rafraîchissante de ChatGPT. L'open-source Projet MMS a été créé pour préserver la diversité linguistique et encourager la recherche et peut reconnaître plus de 4,000 1,100 langues parlées et produire du texte (parole) dans plus de XNUMX XNUMX. La société a publié publiquement ses modèles et son code aujourd'hui pour atteindre ses objectifs.

"Nous partageons publiquement nos créations et notre code afin d'encourager d'autres membres de la communauté de la recherche à s'appuyer sur notre travail", a écrit Meta. "Grâce à cette entreprise, nous espérons préserver la formidable variété linguistique du monde."

Meta a développé une IA vocale open source qui reconnaît plus de 4,000 XNUMX langues parlées

La difficulté de former des reconnaissances vocales et des modèles de synthèse vocale sur de grandes quantités d'audio sans étiquettes de transcription est typique. Les étiquettes sont essentielles pour machine learning, qui peut identifier et classer correctement les données. Cependant, pour les langues qui disparaîtront dans les décennies à venir, "ces données n'existent tout simplement pas", comme l'explique Meta.

Meta a utilisé des enregistrements audio de textes religieux pour collecter des données de manière non conventionnelle. "Nous avons utilisé des traductions de textes religieux tels que la Bible, qui ont été largement étudiés pour la recherche de traduction linguistique basée sur du texte dans de nombreuses langues car ils sont traduits dans de nombreuses langues différentes", a déclaré la société. Nous avons extrait des enregistrements audio de personnes lisant ces textes dans différentes langues à partir de traductions accessibles au public. Les chercheurs de Meta ont ajouté plus de 4,000 XNUMX langues au modèle.

L'approche ressemble à une recette pour un modèle d'IA fortement biaisé qui favorise les visions du monde chrétiennes. Cependant, avant de vous moquer de l'idée, considérez-la du point de vue de Meta : les chercheurs pensent que c'est le cas parce qu'ils utilisent une classification temporelle CTC connexionniste (ou modèle de séquence à séquence ou de type séquence) qui est beaucoup plus limitée en termes de puissance de calcul par rapport à grands modèles de langage (également appelés types de séquence) ou modèles séquentiels pour la reconnaissance vocale. Meta dit que cela n'a pas entraîné de préjugé masculin dans les enregistrements religieux enregistrés par la plupart des locuteurs masculins.

Meta a utilisé wav2vec 2.0, un modèle "d'apprentissage de la représentation vocale auto-supervisé", pour former un wav2vec 2.0 modèle d'alignement qui rend les données plus utilisables. Le modèle de parole auto-supervisé que Meta auto-supervisé à partir de données non étiquetées a donné d'excellents résultats. Meta a constaté que les modèles vocaux massivement multilingues fonctionnaient bien par rapport aux modèles existants et couvraient 10 fois plus de langues, en particulier par rapport à Chuchotement. Meta a atteint la moitié du taux d'erreurs sur les mots, tandis que Massively Multilingual Speech couvrait 11 fois plus de langues.

Meta dit que ses nouveaux modèles de synthèse vocale ne sont pas parfaits. Par exemple, ils pourraient mal traduire des mots ou des phrases, ce qui pourrait entraîner un discours offensant et/ou incorrect, a écrit la société. Le développement responsable des technologies d'IA doit être accompli grâce à la collaboration au sein de la communauté de l'IA.

Comme Meta a publié le MMS pour la recherche open source, il espère pouvoir inverser la tendance à la disparition de l'utilisation du langage. Dans cette vision, la technologie d'assistance, le TTS et même la technologie de réalité virtuelle et de réalité augmentée pourraient permettre à chacun de parler et d'apprendre dans sa langue maternelle. Il a déclaré: "Nous envisageons un monde où la technologie a l'effet inverse, incitant les gens à garder leur langue vivante puisqu'ils peuvent accéder à l'information et utiliser la technologie en parlant dans leur langue préférée."

  • Récemment, Meta a annoncé résultats financiers pour le premier trimestre 2023. Malgré les récents efforts de restructuration, la société a surpris les investisseurs avec une augmentation inattendue des ventes pour le premier trimestre. Les actions ont bondi de 12% mercredi.

Lire plus d'articles connexes:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
La Brochure Rapport de nouvelles Technologie
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
3 mai 2024
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
Marchés Rapport de nouvelles Technologie
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
3 mai 2024
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
Marchés Rapport de nouvelles Technologie
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
3 mai 2024
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
La Brochure Rapport de nouvelles Technologie
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
3 mai 2024
CRYPTOMERIA LABS PTE. LTD.