Meta AI představuje všejazyčné ASR, které vylepšuje automatické rozpoznávání řeči ve více než 1,600 jazycích
Stručně
Společnost Meta AI spustila systém Omnilingual ASR, který poskytuje rozpoznávání řeči pro více než 1 600 jazyků, a vydala modely s otevřeným zdrojovým kódem a korpus pro 350 nedostatečně využívaných jazyků.
Výzkumná divize technologické společnosti Meta specializující se na umělou inteligenci a rozšířenou realitu, Meta AI oznámila vydání systému Meta Omnilingual Automatic Speech Recognition (ASR).
Tato sada modelů poskytuje automatické rozpoznávání řeči pro více než 1 600 jazyků a dosahuje vysoce kvalitního výkonu v bezprecedentním měřítku. Meta AI je navíc open-source Omnilingual wav2vec 2.0, což je samoregulovaný, masivně vícejazyčný model reprezentace řeči se 7 miliardami parametrů, navržený pro podporu řady následných řečových úloh.
Spolu s těmito nástroji organizace také vydává Omnilingual ASR Corpus, kurátorskou sbírku přepsaných projevů z 350 nedostatečně podporovaných jazyků, vyvinutou ve spolupráci s globálními spolupracovníky.
Automatické rozpoznávání řeči se v posledních letech posunulo vpřed a u mnoha široce mluvených jazyků dosahuje téměř dokonalé přesnosti. Rozšíření pokrytí na jazyky s menšími zdroji však zůstává náročné kvůli vysokým datovým a výpočetním nárokům stávajících architektur umělé inteligence. Systém Omnilingual ASR řeší toto omezení škálováním kodéru řeči wav2vec 2.0 na 7 miliard parametrů, čímž vytváří bohaté vícejazyčné reprezentace ze surové, nepřepsané řeči. Dvě varianty dekodéru mapují tyto reprezentace do znakových tokenů: jedna používá konekcionistickou časovou klasifikaci (CTC) a druhá používá přístup založený na transformátoru podobný těm, které se používají ve velkých jazykových modelech.
Tento přístup ASR inspirovaný LLM dosahuje špičkového výkonu ve více než 1 600 jazycích, s mírou chybovosti znaků pod 10 u 78 % z nich a zavádí flexibilnější metodu pro přidávání nových jazyků.
Na rozdíl od tradičních systémů, které vyžadují jemné doladění od odborníků, dokáže Omnilingual ASR začlenit dříve nepodporovaný jazyk pouze s použitím několika párových příkladů zvukového a textového záznamu, což umožňuje přepis bez rozsáhlých dat, specializovaných znalostí nebo špičkových výpočtů. I když výsledky s nulovým skóre zatím neodpovídají plně trénovaným systémům, tato metoda poskytuje škálovatelný způsob, jak do digitálního ekosystému začlenit nedostatečně obsluhované jazyky.
Meta AI vylepší rozpoznávání řeči pomocí všejazyčného ASR Suite a korpusu
Výzkumné oddělení vydalo komplexní sadu modelů a datovou sadu navrženou pro pokrok v oblasti řečových technologií pro jakýkoli jazyk. Na základě předchozího výzkumu organizace FAIR zahrnuje Omnilingual ASR dvě varianty dekodéru, od lehkých 300M modelů pro zařízení s nízkou spotřebou energie až po 7B modely, které nabízejí vysokou přesnost v různých aplikacích. Univerzální model řeči wav2vec 2.0 je k dispozici také v několika velikostech, což umožňuje širokou škálu úkolů souvisejících s řečí nad rámec ASR. Všechny modely jsou poskytovány pod licencí Apache 2.0 a datová sada je k dispozici pod licencí CC-BY, což umožňuje výzkumníkům, vývojářům a zastáncům jazyků přizpůsobovat a rozšiřovat řečová řešení pomocí open-source frameworku fairseq2 od organizace FAIR v ekosystému PyTorch.
Všejazyčný ASR je trénován na jednom z největších a jazykově nejrozmanitějších korpusů ASR, které kdy byly sestaveny, a kombinuje veřejně dostupné datové sady s nahrávkami z komunitních zdrojů. Pro podporu jazyků s omezenou digitální přítomností, Meta AI navázala partnerství s místními organizacemi s cílem náboru a odměňování rodilých mluvčích v odlehlých nebo nedostatečně zdokumentovaných oblastech, čímž vytvořila Omnilingual ASR Corpus, dosud největší datovou sadu spontánních ASR dat s velmi nízkými zdroji. Další spolupráce v rámci Partnerského programu pro jazykové technologie spojila lingvisty, výzkumníky a jazykové komunity po celém světě, včetně partnerství s Common Voice a Lanfrica/NaijaVoices Nadace Mozilla. Toto úsilí poskytlo hluboký lingvistický vhled a kulturní kontext, čímž zajistilo, že technologie splňuje místní potřeby a zároveň posiluje rozmanité jazykové komunity po celém světě.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Alisa, oddaná novinářka v MPost, se specializuje na kryptoměny, důkazy s nulovými znalostmi, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.
Další články
Alisa, oddaná novinářka v MPost, se specializuje na kryptoměny, důkazy s nulovými znalostmi, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.