Meta AI predstavlja višejezični ASR, unapređujući automatsko prepoznavanje govora na više od 1,600 jezika
Ukratko
Meta AI je pokrenuo Omnilingual ASR sustav, koji omogućuje prepoznavanje govora za preko 1,600 jezika te je objavio modele otvorenog koda i korpus za 350 nedovoljno zastupljenih jezika.
Istraživački odjel tehnološke tvrtke Meta specijaliziran za umjetnu inteligenciju i proširenu stvarnost, Meta AI najavio je izlazak sustava za automatsko prepoznavanje govora (ASR) Meta Omnilingual.
Ovaj paket modela omogućuje automatsko prepoznavanje govora za više od 1,600 jezika, postižući visokokvalitetne performanse u dosad neviđenim razmjerima. Osim toga, Meta AI je Omnilingual wav2vec 2.0 otvorenog koda, samonadgledani, masovno višejezični model reprezentacije govora sa 7 milijardi parametara, dizajniran za podršku raznim nizvodnim govornim zadacima.
Uz ove alate, organizacija također objavljuje Omnilingual ASR Corpus, kuriranu zbirku transkribiranog govora iz 350 nedovoljno zastupljenih jezika, razvijenu u partnerstvu s globalnim suradnicima.
Automatsko prepoznavanje govora napredovalo je posljednjih godina, postižući gotovo savršenu točnost za mnoge široko govorene jezike. Proširenje pokrivenosti na jezike s manje resursa, međutim, ostalo je izazovno zbog visokih zahtjeva za podacima i računanjem postojećih AI arhitektura. Omnilingual ASR sustav rješava ovo ograničenje skaliranjem wav2vec 2.0 kodera govora na 7 milijardi parametara, stvarajući bogate višejezične prikaze iz sirovog, neprepisanog govora. Dvije varijante dekodera mapiraju ove prikaze u tokene znakova: jedna koristi konekcionističku vremensku klasifikaciju (CTC), a druga koristi pristup temeljen na transformatoru sličan onima u modelima velikih jezika.
Ovaj ASR pristup inspiriran LLM-om postiže vrhunske performanse u više od 1,600 jezika, sa stopom pogrešaka znakova ispod 10 za 78% njih, te uvodi fleksibilniju metodu za dodavanje novih jezika.
Za razliku od tradicionalnih sustava koji zahtijevaju stručno fino podešavanje, Omnilingual ASR može uključiti prethodno nepodržani jezik koristeći samo nekoliko uparenih primjera audio teksta, omogućujući transkripciju bez opsežnih podataka, specijaliziranog znanja ili naprednog računalstva. Iako se rezultati s nultom preciznošću još ne podudaraju s potpuno obučenim sustavima, ova metoda pruža skalabilan način uključivanja nedovoljno podržanih jezika u digitalni ekosustav.
Meta AI za unapređenje prepoznavanja govora s višejezičnim ASR paketom i korpusom
Istraživački odjel objavio je sveobuhvatan paket modela i skup podataka osmišljenih za unapređenje govorne tehnologije za bilo koji jezik. Nadovezujući se na prethodna istraživanja FAIR-a, Omnilingual ASR uključuje dvije varijante dekodera, od laganih 300M modela za uređaje niske potrošnje energije do 7B modela koji nude visoku točnost u različitim primjenama. Općenamjenski model govorne osnove wav2vec 2.0 također je dostupan u više veličina, što omogućuje širok raspon zadataka povezanih s govorom izvan ASR-a. Svi modeli dostupni su pod licencom Apache 2.0, a skup podataka dostupan je pod CC-BY, što omogućuje istraživačima, programerima i zagovornicima jezika da prilagode i prošire govorna rješenja koristeći FAIR-ov okvir otvorenog koda fairseq2 u ekosustavu PyTorch.
Omnilingualni ASR se obučava na jednom od najvećih i jezično najraznolikijih ASR korpusa ikad sastavljenih, kombinirajući javno dostupne skupove podataka sa snimkama iz zajednice. Kako bi se podržali jezici s ograničenom digitalnom prisutnošću, Meta AI surađivala je s lokalnim organizacijama kako bi regrutirala i kompenzirala izvorne govornike u udaljenim ili nedovoljno dokumentiranim regijama, stvarajući Omnilingual ASR Corpus, najveći spontani ASR skup podataka s ultra niskim resursima do danas. Dodatne suradnje putem Programa partnerstva za jezičnu tehnologiju okupile su lingviste, istraživače i jezične zajednice diljem svijeta, uključujući partnerstva s Common Voiceom i Lanfrica/NaijaVoices Zaklade Mozilla. Ovi napori pružili su dubok lingvistički uvid i kulturni kontekst, osiguravajući da tehnologija zadovoljava lokalne potrebe, a istovremeno osnažuje raznolike jezične zajednice diljem svijeta.
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Alisa, predana novinarka u MPost, specijalizirao se za kriptovalute, dokaze bez znanja, ulaganja i ekspanzivno područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.
Više članaka
Alisa, predana novinarka u MPost, specijalizirao se za kriptovalute, dokaze bez znanja, ulaganja i ekspanzivno područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.