Meta AI introduce ASR omnilingv, îmbunătățind recunoașterea automată a vorbirii în peste 1,600 de limbi
Pe scurt
Meta AI a lansat sistemul Omnilingual ASR, care oferă recunoaștere vocală pentru peste 1,600 de limbi și a lansat modele open-source și un corpus pentru 350 de limbi subdeservite.
Divizia de cercetare a companiei de tehnologie Meta, specializată în inteligență artificială și realitate augmentată, Meta AI a anunțat lansarea sistemului Meta Omnilingual Automatic Speech Recognition (ASR).
Această suită de modele oferă recunoaștere automată a vorbirii pentru peste 1,600 de limbi, atingând performanțe de înaltă calitate la o scară fără precedent. În plus, Meta AI este open-source Omnilingual wav2vec 2.0, un model de reprezentare a vorbirii auto-supervizat, masiv multilingv, cu 7 miliarde de parametri, conceput pentru a susține o varietate de sarcini de vorbire ulterioare.
Pe lângă aceste instrumente, organizația lansează și Corpusul Omnilingual ASR, o colecție atent selecționată de transcrieri vocale din 350 de limbi subdeservite, dezvoltată în parteneriat cu colaboratori la nivel global.
Recunoașterea automată a vorbirii a avansat în ultimii ani, atingând o precizie aproape perfectă pentru multe limbi vorbite pe scară largă. Extinderea acoperirii la limbi cu resurse mai puține, însă, a rămas o provocare din cauza cerințelor ridicate de date și de calcul ale arhitecturilor de inteligență artificială existente. Sistemul ASR omnilingual abordează această limitare prin scalarea codificatorului de vorbire wav2vec 2.0 la 7 miliarde de parametri, creând reprezentări multilingve bogate din vorbire brută, netranscrisă. Două variante de decodor mapează aceste reprezentări în jetoane de caractere: una folosind clasificarea temporală conexionistă (CTC) și alta folosind o abordare bazată pe transformatoare similară cu cele din modelele lingvistice mari.
Această abordare ASR inspirată de LLM atinge performanțe de ultimă generație în peste 1,600 de limbi, cu rate de eroare a caracterelor sub 10 pentru 78% dintre acestea și introduce o metodă mai flexibilă pentru adăugarea de noi limbi.
Spre deosebire de sistemele tradiționale care necesită reglaje fine din partea experților, ASR omnilingv poate încorpora o limbă neacceptată anterior folosind doar câteva exemple audio-text asociate, permițând transcrierea fără date extinse, expertiză specializată sau calcul de înaltă performanță. Deși rezultatele obținute la zero nu se potrivesc încă cu sistemele complet antrenate, această metodă oferă o modalitate scalabilă de a aduce limbile insuficient deservite în ecosistemul digital.
Meta AI va avansa recunoașterea vorbirii cu suita și corpusul ASR omnilingv
Divizia de cercetare a lansat o suită cuprinzătoare de modele și un set de date concepute pentru a avansa tehnologia vorbirii pentru orice limbă. Bazându-se pe cercetările anterioare ale FAIR, Omnilingual ASR include două variante de decodor, de la modele ușoare de 300M pentru dispozitive cu consum redus de energie, până la modele 7B care oferă o precizie ridicată în diverse aplicații. Modelul general wav2vec 2.0 pentru fundația vorbirii este, de asemenea, disponibil în mai multe dimensiuni, permițând o gamă largă de sarcini legate de vorbire dincolo de ASR. Toate modelele sunt furnizate sub o licență Apache 2.0, iar setul de date este disponibil sub CC-BY, permițând cercetătorilor, dezvoltatorilor și susținătorilor limbajului să adapteze și să extindă soluțiile de vorbire folosind framework-ul open-source fairseq2 al FAIR în ecosistemul PyTorch.
ASR omnilingv este antrenat pe baza unuia dintre cele mai mari și mai diverse corpora ASR asamblate vreodată, combinând seturi de date disponibile publicului cu înregistrări provenite din comunitate. Pentru a sprijini limbile cu prezență digitală limitată, Meta AI a colaborat cu organizații locale pentru a recruta și compensa vorbitorii nativi din regiuni îndepărtate sau subdocumentate, creând Corpusul ASR Omnilingual, cel mai mare set de date ASR spontane cu resurse extrem de reduse de până acum. Colaborări suplimentare prin intermediul Programului de Parteneriat în Tehnologia Limbii au reunit lingviști, cercetători și comunități lingvistice din întreaga lume, inclusiv parteneriate cu Common Voice al Fundației Mozilla și Lanfrica/NaijaVoices. Aceste eforturi au oferit o perspectivă lingvistică profundă și un context cultural, asigurându-se că tehnologia răspunde nevoilor locale, oferind în același timp sprijin comunităților lingvistice diverse la nivel global.
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Alisa, o jurnalistă dedicată la MPost, este specializată în criptomonede, dovezi fără cunoștințe, investiții și tărâmul expansiv al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.
Mai multe articole
Alisa, o jurnalistă dedicată la MPost, este specializată în criptomonede, dovezi fără cunoștințe, investiții și tărâmul expansiv al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.