Informe de noticias Ecológica
11 de noviembre.

Meta AI presenta el reconocimiento automático del habla omnilingüe, impulsando el reconocimiento automático del habla en más de 1,600 idiomas.

En Resumen

Meta AI ha lanzado el sistema ASR Omnilingual, que proporciona reconocimiento de voz para más de 1,600 idiomas, y ha publicado modelos de código abierto y un corpus para 350 idiomas poco representados.

Meta AI presenta el reconocimiento automático del habla omnilingüe, impulsando el reconocimiento automático del habla en más de 1,600 idiomas.

División de investigación de la empresa tecnológica Meta especializada en IA y realidad aumentada, Meta IA Anunció el lanzamiento del sistema Meta Omnilingual de reconocimiento automático del habla (ASR). 

Este conjunto de modelos ofrece reconocimiento automático de voz para más de 1,600 idiomas, logrando un rendimiento de alta calidad a una escala sin precedentes. Además, Meta AI libera como código abierto Omnilingual wav2vec 2.0, un modelo de representación de voz multilingüe masivo y autosupervisado con 7 millones de parámetros, diseñado para admitir diversas tareas de procesamiento de voz.

Junto con estas herramientas, la organización también publica el Corpus Omnilingual ASR, una colección seleccionada de transcripciones de voz de 350 idiomas poco representados, desarrollada en colaboración con socios globales.

El reconocimiento automático del habla ha avanzado en los últimos años, alcanzando una precisión casi perfecta en muchos idiomas ampliamente hablados. Sin embargo, ampliar su cobertura a idiomas con menos recursos sigue siendo un reto debido a las elevadas exigencias de datos y computación de las arquitecturas de IA existentes. El sistema de reconocimiento automático del habla omnilingüe (ASR) resuelve esta limitación al escalar el codificador de voz wav2vec 2.0 a 7 millones de parámetros, creando representaciones multilingües enriquecidas a partir de voz sin transcribir. Dos variantes de decodificador transforman estas representaciones en tokens de caracteres: una mediante clasificación temporal conexionista (CTC) y otra mediante un enfoque basado en transformadores, similar al de los grandes modelos de lenguaje.

Este enfoque de reconocimiento automático del habla (ASR) inspirado en LLM logra un rendimiento de vanguardia en más de 1,600 idiomas, con tasas de error de caracteres inferiores a 10 para el 78 % de ellos, e introduce un método más flexible para agregar nuevos idiomas. 

A diferencia de los sistemas tradicionales que requieren ajustes precisos por parte de expertos, el sistema de reconocimiento automático del habla omnilingüe (ASR) puede incorporar idiomas previamente no compatibles utilizando solo unos pocos pares de ejemplos de audio y texto, lo que permite la transcripción sin necesidad de grandes conjuntos de datos, conocimientos especializados ni computación de alto rendimiento. Si bien los resultados obtenidos con el sistema de aprendizaje sin ejemplos aún no igualan a los de los sistemas completamente entrenados, este método proporciona una forma escalable de incorporar idiomas poco representados al ecosistema digital.

Meta AI impulsará el reconocimiento de voz con una suite ASR omnilingüe y un corpus. 

La división de investigación ha publicado un conjunto completo de modelos y un conjunto de datos diseñados para impulsar la tecnología del habla en cualquier idioma. Basándose en investigaciones previas de FAIR, el sistema de reconocimiento automático del habla omnilingüe (ASR) incluye dos variantes de decodificador, desde modelos ligeros de 300 millones de caracteres para dispositivos de bajo consumo hasta modelos de 7 mil millones de caracteres que ofrecen alta precisión en diversas aplicaciones. El modelo de reconocimiento del habla wav2vec 2.0, de propósito general, también está disponible en varios tamaños, lo que permite una amplia gama de tareas relacionadas con el habla más allá del ASR. Todos los modelos se distribuyen bajo la licencia Apache 2.0 y el conjunto de datos está disponible bajo la licencia CC-BY, lo que permite a investigadores, desarrolladores y defensores de los idiomas adaptar y ampliar las soluciones de reconocimiento del habla utilizando el marco de código abierto fairseq2 de FAIR en el ecosistema PyTorch.

El sistema de reconocimiento automático del habla omnilingüe (ASR) se entrena con uno de los corpus de ASR más grandes y lingüísticamente diversos jamás recopilados, que combina conjuntos de datos disponibles públicamente con grabaciones aportadas por la comunidad. Para dar soporte a idiomas con presencia digital limitada, Meta IA Se asoció con organizaciones locales para reclutar y remunerar a hablantes nativos en regiones remotas o con escasa documentación, creando el Corpus Omnilingüe de Reconocimiento Automático de Voz (ASR), el mayor conjunto de datos de ASR espontáneo con recursos ultrabajos hasta la fecha. Otras colaboraciones, a través del Programa de Socios en Tecnología Lingüística, reunieron a lingüistas, investigadores y comunidades lingüísticas de todo el mundo, incluyendo alianzas con Common Voice de la Fundación Mozilla y Lanfrica/NaijaVoices. Estos esfuerzos proporcionaron un profundo conocimiento lingüístico y un contexto cultural, garantizando que la tecnología satisfaga las necesidades locales y, al mismo tiempo, empodere a diversas comunidades lingüísticas a nivel global.

Renuncia de responsabilidad:

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Alisa, una dedicada periodista del MPost, se especializa en criptomonedas, pruebas de conocimiento cero, inversiones y el amplio ámbito de Web3. Con buen ojo para las tendencias y tecnologías emergentes, ofrece una cobertura completa para informar e involucrar a los lectores en el panorama en constante evolución de las finanzas digitales.

Más artículos
alisa davidson
alisa davidson

Alisa, una dedicada periodista del MPost, se especializa en criptomonedas, pruebas de conocimiento cero, inversiones y el amplio ámbito de Web3. Con buen ojo para las tendencias y tecnologías emergentes, ofrece una cobertura completa para informar e involucrar a los lectores en el panorama en constante evolución de las finanzas digitales.

La calma antes de la tormenta de Solana: Qué dicen ahora los gráficos, las ballenas y las señales en cadena

Solana ha demostrado un sólido desempeño, impulsado por una creciente adopción, interés institucional y asociaciones clave, al tiempo que enfrenta potenciales...

Para saber más

Criptomonedas en abril de 2025: tendencias clave, cambios y futuro

En abril de 2025, el espacio criptográfico se centró en fortalecer la infraestructura central, con Ethereum preparándose para Pectra...

Para saber más
Leer más
Leer más
Bakkt adquirirá Distributed Technologies Research, lo que acelerará la expansión de las stablecoins y los activos digitales.
Empresa Informe de noticias Ecológica
Bakkt adquirirá Distributed Technologies Research, lo que acelerará la expansión de las stablecoins y los activos digitales.
Enero 12, 2026
Criptomonedas a mediados de enero: inestables, vacilantes y aún en proceso de decisión
Mercado Informe de noticias
Criptomonedas a mediados de enero: inestables, vacilantes y aún en proceso de decisión
Enero 12, 2026
CoinShares: Los ETF de criptomonedas estadounidenses registran salidas de capital mientras XRP, Solana y Sui atraen capital.
Mercado Informe de noticias Ecológica
CoinShares: Los ETF de criptomonedas estadounidenses registran salidas de capital mientras XRP, Solana y Sui atraen capital.
Enero 12, 2026
Los mejores eventos sobre criptomonedas y activos digitales que se celebrarán en Hong Kong este febrero
Temporadas de pirateo Empresa Estilo de Vida Informe de noticias Ecológica
Los mejores eventos sobre criptomonedas y activos digitales que se celebrarán en Hong Kong este febrero
Enero 12, 2026
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.