A Meta AI apresenta o ASR omnilíngue, aprimorando o reconhecimento automático de fala em mais de 1,600 idiomas.
Em Breve
A Meta AI lançou o sistema Omnilingual ASR, que oferece reconhecimento de fala para mais de 1,600 idiomas, e disponibilizou modelos de código aberto e um corpus para 350 idiomas pouco atendidos.
Divisão de pesquisa da empresa de tecnologia Meta, especializada em IA e realidade aumentada. Meta IA Anunciou o lançamento do sistema Meta Omnilingual de Reconhecimento Automático de Fala (ASR).
Este conjunto de modelos oferece reconhecimento automático de fala para mais de 1,600 idiomas, alcançando desempenho de alta qualidade em uma escala sem precedentes. Além disso, a Meta AI está disponibilizando o código aberto do Omnilingual wav2vec 2.0, um modelo de representação de fala multilíngue e autossupervisionado com 7 bilhões de parâmetros, projetado para suportar uma variedade de tarefas de fala subsequentes.
Juntamente com essas ferramentas, a organização também está lançando o Corpus Omnilingual ASR, uma coleção selecionada de transcrições de fala em 350 idiomas pouco representados, desenvolvida em parceria com colaboradores globais.
O reconhecimento automático de fala avançou nos últimos anos, atingindo precisão quase perfeita para muitos idiomas amplamente falados. No entanto, expandir a cobertura para idiomas com menos recursos tem se mostrado um desafio devido às altas demandas de dados e computacionais das arquiteturas de IA existentes. O sistema Omnilingual ASR supera essa limitação escalando o codificador de fala wav2vec 2.0 para 7 bilhões de parâmetros, criando representações multilíngues ricas a partir da fala bruta e não transcrita. Duas variantes de decodificador mapeiam essas representações em tokens de caracteres: uma usando classificação temporal conexionista (CTC) e outra usando uma abordagem baseada em transformadores, semelhante às utilizadas em grandes modelos de linguagem.
Essa abordagem de reconhecimento automático de fala (ASR) inspirada no LLM alcança desempenho de última geração em mais de 1,600 idiomas, com taxas de erro de caracteres inferiores a 10% em 78% deles, e introduz um método mais flexível para adicionar novos idiomas.
Ao contrário dos sistemas tradicionais que exigem ajustes precisos por especialistas, o ASR Omnilingual pode incorporar um idioma anteriormente não suportado usando apenas alguns exemplos de áudio e texto pareados, permitindo a transcrição sem a necessidade de grandes volumes de dados, conhecimento especializado ou poder computacional de ponta. Embora os resultados obtidos com zero exemplos ainda não se igualem aos de sistemas totalmente treinados, esse método oferece uma maneira escalável de integrar idiomas sub-representados ao ecossistema digital.
Meta AI para aprimorar o reconhecimento de fala com conjunto de ferramentas ASR omnilíngues e corpus.
A divisão de pesquisa lançou um conjunto abrangente de modelos e um conjunto de dados projetados para aprimorar a tecnologia de reconhecimento de fala em qualquer idioma. Com base em pesquisas anteriores da FAIR, o Omnilingual ASR inclui duas variantes de decodificador, variando de modelos leves de 300M para dispositivos de baixo consumo de energia a modelos de 7B que oferecem alta precisão em diversas aplicações. O modelo de fala wav2vec 2.0, de uso geral, também está disponível em vários tamanhos, permitindo uma ampla gama de tarefas relacionadas à fala além do reconhecimento automático de fala (ASR). Todos os modelos são fornecidos sob a licença Apache 2.0 e o conjunto de dados está disponível sob a licença CC-BY, permitindo que pesquisadores, desenvolvedores e defensores da linguagem adaptem e expandam soluções de fala usando a estrutura de código aberto fairseq2 da FAIR no ecossistema PyTorch.
O sistema de reconhecimento automático de fala (ASR) omnilinguístico é treinado em um dos maiores e mais linguisticamente diversos corpora de ASR já reunidos, combinando conjuntos de dados disponíveis publicamente com gravações fornecidas pela comunidade. Para dar suporte a idiomas com presença digital limitada, Meta IA Em parceria com organizações locais, recrutamos e remuneramos falantes nativos em regiões remotas ou com poucos recursos, criando o Corpus Omnilingual ASR, o maior conjunto de dados de reconhecimento automático de fala (ASR) espontâneo com recursos extremamente limitados até o momento. Colaborações adicionais por meio do Programa de Parceiros em Tecnologia Linguística reuniram linguistas, pesquisadores e comunidades linguísticas do mundo todo, incluindo parcerias com o Common Voice da Mozilla Foundation e o Lanfrica/NaijaVoices. Esses esforços proporcionaram uma compreensão linguística profunda e um contexto cultural abrangente, garantindo que a tecnologia atenda às necessidades locais e, ao mesmo tempo, empodere diversas comunidades linguísticas globalmente.
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Alisa, jornalista dedicada do MPost, é especializada em criptomoedas, provas de conhecimento zero, investimentos e no vasto reino de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.
Mais artigos
Alisa, jornalista dedicada do MPost, é especializada em criptomoedas, provas de conhecimento zero, investimentos e no vasto reino de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.