Meta AI introducerar flerspråkig ASR, vilket förbättrar automatisk taligenkänning på fler än 1 600 språk
I korthet
Meta AI har lanserat det omnilinguala ASR-systemet, som tillhandahåller taligenkänning för över 1 600 språk, och släppt modeller med öppen källkod och en korpus för 350 underförsörjda språk.
Forskningsavdelningen inom teknikföretaget Meta specialiserad på AI och förstärkt verklighet, Meta ai tillkännagav lanseringen av det omnilinguala automatiska taligenkänningssystemet (ASR) Meta.
Denna modellsvit levererar automatisk taligenkänning för över 1 600 språk och uppnår högkvalitativ prestanda i en aldrig tidigare skådad skala. Dessutom är Meta AI öppen källkod för Omnilingual wav2vec 2.0, en självövervakad, massivt flerspråkig talrepresentationsmodell med 7 miljarder parametrar, utformad för att stödja en mängd olika taluppgifter nedströms.
Vid sidan av dessa verktyg släpper organisationen även den omnilinguala ASR Corpus, en kurerad samling av transkriberat tal från 350 underförsörjda språk, utvecklad i samarbete med globala samarbetspartners.
Automatisk taligenkänning har utvecklats under senare år och uppnått nästan perfekt noggrannhet för många allmänt talade språk. Att utöka täckningen till språk med mindre resurser har dock fortsatt att vara en utmaning på grund av de höga data- och beräkningskraven från befintliga AI-arkitekturer. Det omnilinguala ASR-systemet åtgärdar denna begränsning genom att skala wav2vec 2.0-talkodaren till 7 miljarder parametrar, vilket skapar rika flerspråkiga representationer från rått, otranskriberat tal. Två avkodarvarianter mappar dessa representationer till teckentokens: en som använder konnektionistisk temporal klassificering (CTC) och en annan som använder en transformatorbaserad metod som liknar de i stora språkmodeller.
Denna LLM-inspirerade ASR-metod uppnår toppmodern prestanda på fler än 1 600 språk, med teckenfelfrekvenser under 10 för 78 % av dem, och introducerar en mer flexibel metod för att lägga till nya språk.
Till skillnad från traditionella system som kräver finjustering av experter kan Omnilingual ASR integrera ett tidigare ostöttat språk med endast ett fåtal parade ljud-text-exempel, vilket möjliggör transkription utan omfattande data, specialiserad expertis eller avancerad beräkningsförmåga. Även om nollresultat ännu inte matchar fullt utbildade system, erbjuder denna metod ett skalbart sätt att få in underförsörjda språk i det digitala ekosystemet.
Meta AI ska förbättra taligenkänning med omnispråkig ASR-svit och korpus
Forskningsavdelningen har släppt en omfattande uppsättning modeller och en datauppsättning utformad för att utveckla talteknik för alla språk. Omnilingual ASR bygger vidare på FAIRs tidigare forskning och inkluderar två avkodarvarianter, allt från lätta 300M-modeller för enheter med låg effekt till 7B-modeller som erbjuder hög noggrannhet över olika applikationer. Den generella wav2vec 2.0-talgrundmodellen finns också tillgänglig i flera storlekar, vilket möjliggör ett brett spektrum av talrelaterade uppgifter utöver ASR. Alla modeller tillhandahålls under en Apache 2.0-licens, och datauppsättningen är tillgänglig under CC-BY, vilket gör det möjligt för forskare, utvecklare och språkförespråkare att anpassa och utöka tallösningar med hjälp av FAIRs öppna källkodsramverk fairseq2 i PyTorch-ekosystemet.
Omnispråkig ASR tränas på en av de största och mest språkligt mångsidiga ASR-korpus som någonsin sammanställts, och kombinerar offentligt tillgängliga datamängder med inspelningar från community-källor. För att stödja språk med begränsad digital närvaro, Meta ai samarbetade med lokala organisationer för att rekrytera och kompensera modersmålstalare i avlägsna eller underdokumenterade regioner, vilket skapade Omnilingual ASR Corpus, den största spontana ASR-datauppsättningen med extremt låga resurser hittills. Ytterligare samarbeten genom Language Technology Partner Program förde samman lingvister, forskare och språkgemenskaper över hela världen, inklusive partnerskap med Mozilla Foundations Common Voice och Lanfrica/NaijaVoices. Dessa insatser gav djup språklig insikt och kulturell kontext, vilket säkerställde att tekniken möter lokala behov samtidigt som den stärker olika språkgemenskaper globalt.
Ansvarsfriskrivning
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Alisa, en engagerad journalist på MPost, specialiserat på kryptovaluta, nollkunskapsbevis, investeringar och den expansiva sfären av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.
fler artiklar
Alisa, en engagerad journalist på MPost, specialiserat på kryptovaluta, nollkunskapsbevis, investeringar och den expansiva sfären av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.