A Meta AI bemutatja az omnilingvális ASR-t, amely több mint 1,600 nyelven fejleszti az automatikus beszédfelismerést
Röviden
A Meta AI elindította az Omniningual ASR rendszert, amely több mint 1,600 nyelven biztosít beszédfelismerést, és nyílt forráskódú modelleket és egy korpuszt tett közzé 350 kevésbé lefedett nyelvhez.
A Meta technológiai vállalat mesterséges intelligenciára és kiterjesztett valóságra szakosodott kutatási részlege Meta AI bejelentette a Meta Omningual Automatic Speech Recognition (ASR) rendszer megjelenését.
Ez a modellcsomag több mint 1,600 nyelven biztosít automatikus beszédfelismerést, példátlan mértékben elérve a kiváló minőségű teljesítményt. Ezenkívül a Meta AI nyílt forráskódú Omninsulative wav2vec 2.0-t is kínál, amely egy önmagát felügyelő, masszívan többnyelvű beszédreprezentációs modell 7 milliárd paraméterrel, és amelyet a beszédfeldolgozási feladatok széles skálájának támogatására terveztek.
Ezen eszközök mellett a szervezet kiadja az Omnilingual ASR Corpust is, amely 350 kevésbé használt nyelvről származó átírt beszéd kurátori gyűjteménye, és amelyet globális együttműködőkkel együttműködve fejlesztettek ki.
Az automatikus beszédfelismerés az elmúlt években fejlődött, és számos széles körben beszélt nyelv esetében közel tökéletes pontosságot ért el. A lefedettség kiterjesztése a kevésbé erőforrásos nyelvekre azonban továbbra is kihívást jelent a meglévő mesterséges intelligencia architektúrák magas adat- és számítási igényei miatt. Az Omningular ASR rendszer ezt a korlátozást úgy küszöböli ki, hogy a wav2vec 2.0 beszédkódolót 7 milliárd paraméterre skálázza, gazdag többnyelvű reprezentációkat hozva létre a nyers, átíratlan beszédből. Két dekóderváltozat képezi le ezeket a reprezentációkat karaktertokenekké: az egyik konnekcionista időbeli osztályozást (CTC), a másik pedig egy transzformátor-alapú megközelítést használ, hasonlóan a nagy nyelvi modellekben alkalmazottakhoz.
Ez az LLM által inspirált ASR megközelítés több mint 1,600 nyelven ér el élvonalbeli teljesítményt, 78%-uk esetében 10 alatti karakterhibaaránnyal, és rugalmasabb módszert vezet be az új nyelvek hozzáadására.
A hagyományos, szakértői finomhangolást igénylő rendszerekkel ellentétben az Omnilingual ASR képes egy korábban nem támogatott nyelvet beépíteni mindössze néhány párosított hang-szöveg példa felhasználásával, lehetővé téve az átírást kiterjedt adatmennyiség, speciális szakértelem vagy nagy teljesítményű számítástechnika nélkül. Bár a nullapontos eredmények még nem egyeznek meg a teljesen betanított rendszerekkel, ez a módszer skálázható módot kínál a kevésbé támogatott nyelvek digitális ökoszisztémába való bevonására.
A Meta AI fejleszti a beszédfelismerést az Omnilingual ASR Suite és Corpus segítségével
A kutatási részleg kiadott egy átfogó modellcsomagot és egy adatkészletet, amelynek célja a beszédtechnológia fejlesztése bármilyen nyelven. A FAIR korábbi kutatásaira építve az Omniningual ASR két dekóderváltozatot tartalmaz, a kis fogyasztású eszközökhöz készült könnyű 300M-es modellektől a nagy pontosságot kínáló 7B-es modellekig, amelyek sokféle alkalmazásban nagy pontosságot kínálnak. Az általános célú wav2vec 2.0 beszédalap-modell több méretben is elérhető, lehetővé téve az ASR-en túlmutató beszéddel kapcsolatos feladatok széles skáláját. Minden modell Apache 2.0 licenc alatt érhető el, és az adatkészlet CC-BY alatt érhető el, lehetővé téve a kutatók, fejlesztők és nyelvi támogatók számára, hogy a FAIR nyílt forráskódú fairseq2 keretrendszerének használatával adaptálják és bővítsék a beszédmegoldásokat a PyTorch ökoszisztémában.
Az Omnilingual ASR (nyelvészeti nyelvi adaptációs nyelv) képzése a valaha összeállított egyik legnagyobb és nyelvileg legváltozatosabb ASR korpuszon történik, amely nyilvánosan elérhető adatkészleteket kombinál közösségi forrásból származó felvételekkel. A korlátozott digitális jelenléttel rendelkező nyelvek támogatása érdekében a Meta AI helyi szervezetekkel működött együtt anyanyelvi beszélők toborzása és kompenzálása érdekében távoli vagy aluldokumentált régiókban, létrehozva az Omnilingual ASR Corpust, amely a mai napig a legnagyobb, rendkívül alacsony erőforrás-igényű spontán ASR-adatbázis. A Language Technology Partner Programon keresztüli további együttműködések világszerte összehozták a nyelvészeket, kutatókat és nyelvi közösségeket, beleértve a Mozilla Alapítvány Common Voice-ával és a Lanfrica/NaijaVoices-szal kötött partnerségeket. Ezek az erőfeszítések mély nyelvi betekintést és kulturális kontextust biztosítottak, biztosítva, hogy a technológia megfeleljen a helyi igényeknek, miközben globálisan felhatalmazza a sokszínű nyelvi közösségeket.
Jogi nyilatkozat
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Alisa, a The MPost, a kriptovalutákra, a nulla tudásalapú bizonyítékokra, a befektetésekre és a Web3. Élénk szemmel figyeli a feltörekvő trendeket és technológiákat, ezért átfogó tájékoztatást nyújt, hogy tájékoztassa és bevonja olvasóit a digitális pénzügyek folyamatosan fejlődő világába.
További cikkek
Alisa, a The MPost, a kriptovalutákra, a nulla tudásalapú bizonyítékokra, a befektetésekre és a Web3. Élénk szemmel figyeli a feltörekvő trendeket és technológiákat, ezért átfogó tájékoztatást nyújt, hogy tájékoztassa és bevonja olvasóit a digitális pénzügyek folyamatosan fejlődő világába.