„Meta AI“ pristato daugiakalbį ASR, tobulindama automatinį kalbos atpažinimą daugiau nei 1,600 kalbų
Trumpai
„Meta AI“ pristatė „Omnilingual ASR“ sistemą, teikiančią kalbos atpažinimo funkciją daugiau nei 1,600 kalbų, ir išleido atvirojo kodo modelius bei korpusą 350 nepakankamai aptarnaujamų kalbų.
Technologijų bendrovės „Meta“ tyrimų padalinys, kuris specializuojasi dirbtinio intelekto ir papildytos realybės srityse. Meta AI paskelbė apie „Meta Omninjural Automatic Speech Recognition“ (ASR) sistemos išleidimą.
Šis modelių rinkinys užtikrina automatinį kalbos atpažinimą daugiau nei 1,600 kalbų, pasiekdamas aukštos kokybės našumą precedento neturinčiu mastu. Be to, „Meta AI“ yra atvirojo kodo „Omninjugal wav2vec 2.0“ – savarankiškai prižiūrimas, masiškai daugiakalbis kalbos vaizdavimo modelis su 7 milijardais parametrų, skirtas įvairioms kalbos apdorojimo užduotims palaikyti.
Be šių įrankių, organizacija taip pat išleidžia „Omnilingual ASR Corpus“ – kuruojamą transkribuotos kalbos iš 350 nepakankamai aptarnaujamų kalbų rinkinį, sukurtą bendradarbiaujant su pasauliniais bendradarbiais.
Pastaraisiais metais automatinis kalbos atpažinimas patobulėjo ir pasiekė beveik idealų tikslumą daugeliui plačiai vartojamų kalbų. Tačiau išplėsti aprėptį į mažiau išteklių turinčias kalbas išliko sudėtinga dėl didelių duomenų ir skaičiavimo poreikių, kuriuos kelia esamos dirbtinio intelekto architektūros. Daugiakalbė ASR sistema šį apribojimą išsprendžia pakeisdama „wav2vec 2.0“ kalbos kodavimo įrenginio mastelį iki 7 milijardų parametrų, sukurdama išsamius daugiakalbius atvaizdavimus iš neapdorotos, netranskribuotos kalbos. Du dekoderio variantai šiuos atvaizdavimus susieja su simbolių žetonais: vienas naudoja konekcionistinę laikinę klasifikaciją (CTC), o kitas – transformatoriumi pagrįstą metodą, panašų į tuos, kurie naudojami dideliuose kalbų modeliuose.
Šis LLM įkvėptas ASR metodas pasiekia moderniausią našumą daugiau nei 1,600 kalbų, o 78 % iš jų simbolių klaidų lygis yra mažesnis nei 10, ir pristato lankstesnį metodą naujoms kalboms pridėti.
Skirtingai nuo tradicinių sistemų, kurioms reikalingas ekspertų tikslus derinimas, „Omnilingual ASR“ gali įtraukti anksčiau nepalaikomą kalbą, naudodama tik kelis suporuotus garso ir teksto pavyzdžius, taip įgalindama transkripciją be didelių duomenų kiekių, specializuotų žinių ar aukščiausios klasės skaičiavimų. Nors „zero-shot“ rezultatai dar neatitinka visiškai apmokytų sistemų, šis metodas suteikia keičiamo masto būdą įtraukti nepakankamai aptarnaujamas kalbas į skaitmeninę ekosistemą.
„Meta AI“ tobulins kalbos atpažinimą naudodamas daugiakalbį ASR rinkinį ir korpusą
Tyrimų padalinys išleido išsamų modelių rinkinį ir duomenų rinkinį, skirtus tobulinti kalbos technologijas bet kuriai kalbai. Remiantis ankstesniais FAIR tyrimais, „Omnilingual ASR“ apima du dekoderių variantus – nuo lengvų 300M modelių, skirtų mažos galios įrenginiams, iki 7B modelių, užtikrinančių didelį tikslumą įvairiose srityse. Bendrosios paskirties „wav2vec 2.0“ kalbos pagrindo modelis taip pat prieinamas įvairių dydžių, leidžiančių atlikti įvairias su kalba susijusias užduotis, neapsiribojant ASR. Visi modeliai teikiami pagal „Apache 2.0“ licenciją, o duomenų rinkinys prieinamas pagal CC-BY licenciją, todėl tyrėjai, kūrėjai ir kalbos gynėjai gali pritaikyti ir išplėsti kalbos sprendimus naudodami FAIR atvirojo kodo „fairseq2“ sistemą „PyTorch“ ekosistemoje.
Daugiakalbė ASR sistema yra apmokyta naudojant vieną didžiausių ir lingvistiškai įvairiausių kada nors surinktų ASR korpusų, derindama viešai prieinamus duomenų rinkinius su bendruomenės įrašais. Siekiant palaikyti kalbas, kurių skaitmeninė aprėptis ribota, Meta AI bendradarbiavo su vietos organizacijomis, kad įdarbintų ir atlygintų gimtakalbiams atokiuose arba nepakankamai dokumentuotuose regionuose, sukurdami „Omnilingual ASR Corpus“ – didžiausią iki šiol itin mažai išteklių reikalaujantį spontaniškų ASR duomenų rinkinį. Papildomas bendradarbiavimas per Kalbų technologijų partnerių programą subūrė lingvistus, tyrėjus ir kalbų bendruomenes visame pasaulyje, įskaitant partnerystes su „Mozilla Foundation“ „Common Voice“ ir „Lanfrica/NaijaVoices“. Šios pastangos suteikė gilių lingvistinių įžvalgų ir kultūrinio konteksto, užtikrindamos, kad technologija atitiktų vietos poreikius ir kartu įgalintų įvairias kalbų bendruomenes visame pasaulyje.
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Alisa, atsidavusi žurnalistė MPost, specializuojasi kriptovaliutų, nulinių žinių įrodymų, investicijų ir plataus masto Web3. Akylai žvelgdama į naujas tendencijas ir technologijas, ji pateikia išsamią informaciją, kad informuotų ir įtrauktų skaitytojus į nuolat besikeičiančią skaitmeninių finansų aplinką.
Daugiau straipsnių
Alisa, atsidavusi žurnalistė MPost, specializuojasi kriptovaliutų, nulinių žinių įrodymų, investicijų ir plataus masto Web3. Akylai žvelgdama į naujas tendencijas ir technologijas, ji pateikia išsamią informaciją, kad informuotų ir įtrauktų skaitytojus į nuolat besikeičiančią skaitmeninių finansų aplinką.