Raport aktualności Technologia
November 11, 2025

Meta AI wprowadza wielojęzykową technologię ASR, która usprawnia automatyczne rozpoznawanie mowy w ponad 1,600 językach

W skrócie

Firma Meta AI wprowadziła na rynek system Omnilingual ASR, umożliwiający rozpoznawanie mowy w ponad 1,600 językach, a także udostępniła modele open source i korpus dla 350 języków, które nie są powszechnie obsługiwane.

Meta AI wprowadza wielojęzykową technologię ASR, która usprawnia automatyczne rozpoznawanie mowy w ponad 1,600 językach

Dział badawczy firmy technologicznej Meta specjalizującej się w sztucznej inteligencji i rzeczywistości rozszerzonej, Meta sztuczna inteligencja ogłosiła wydanie systemu Meta Omnilingual Automatic Speech Recognition (ASR). 

Ten zestaw modeli zapewnia automatyczne rozpoznawanie mowy w ponad 1,600 językach, osiągając wysoką jakość działania na niespotykaną dotąd skalę. Ponadto Meta AI udostępnia na zasadzie open source Omnilingual wav2vec 2.0 – samonadzorowany, masowo wielojęzyczny model reprezentacji mowy z 7 miliardami parametrów, zaprojektowany do obsługi różnorodnych zadań związanych z mową.

Oprócz tych narzędzi organizacja udostępnia również Omnilingual ASR Corpus, czyli starannie dobrany zbiór transkrybowanych wypowiedzi z 350 języków, które nie są powszechnie używane, opracowany we współpracy z globalnymi partnerami.

Automatyczne rozpoznawanie mowy rozwinęło się w ostatnich latach, osiągając niemal idealną dokładność w wielu powszechnie używanych językach. Rozszerzenie zasięgu na języki o mniejszych zasobach pozostaje jednak trudne ze względu na wysokie wymagania obliczeniowe i dotyczące danych istniejących architektur sztucznej inteligencji. System Omnilingual ASR rozwiązuje to ograniczenie, skalując koder mowy wav2vec 2.0 do 7 miliardów parametrów, tworząc bogate, wielojęzyczne reprezentacje z surowej, nietranskrybowanej mowy. Dwa warianty dekodera odwzorowują te reprezentacje na tokeny znaków: jeden wykorzystuje koneksjonistyczną klasyfikację czasową (CTC), a drugi wykorzystuje podejście oparte na transformatorach, podobne do tych stosowanych w dużych modelach językowych.

To podejście ASR, zainspirowane LLM, osiąga najnowocześniejszą wydajność w ponad 1,600 językach, przy wskaźniku błędów znaków poniżej 10 w przypadku 78% z nich, a także wprowadza bardziej elastyczną metodę dodawania nowych języków. 

W przeciwieństwie do tradycyjnych systemów, które wymagają dopracowania przez ekspertów, Omnilingual ASR może włączyć język, który wcześniej nie był obsługiwany, wykorzystując jedynie kilka sparowanych przykładów audio-tekstowych, umożliwiając transkrypcję bez obszernych danych, specjalistycznej wiedzy czy zaawansowanych obliczeń. Chociaż wyniki zerowe nie odpowiadają jeszcze w pełni wytrenowanym systemom, ta metoda zapewnia skalowalny sposób na wprowadzenie niedostatecznie obsługiwanych języków do ekosystemu cyfrowego.

Meta AI usprawnia rozpoznawanie mowy dzięki wielojęzykowemu pakietowi ASR i korpusowi 

Dział badawczy opublikował kompleksowy zestaw modeli i zbiór danych zaprojektowany z myślą o rozwoju technologii mowy dla dowolnego języka. Bazując na wcześniejszych badaniach FAIR, Omnilingual ASR obejmuje dwa warianty dekodera, od lekkich modeli 300M dla urządzeń o niskim poborze mocy, po modele 7B oferujące wysoką dokładność w różnorodnych zastosowaniach. Uniwersalny model podstawy mowy wav2vec 2.0 jest również dostępny w wielu rozmiarach, umożliwiając szeroki zakres zadań związanych z mową wykraczających poza ASR. Wszystkie modele są udostępniane na licencji Apache 2.0, a zbiór danych jest dostępny na licencji CC-BY, co pozwala badaczom, programistom i orędownikom języków na adaptację i rozszerzanie rozwiązań mowy za pomocą otwartego frameworka fairseq2 FAIR w ekosystemie PyTorch.

Omnilingual ASR jest trenowany na jednym z największych i najbardziej zróżnicowanych językowo korpusów ASR, jakie kiedykolwiek stworzono, łącząc publicznie dostępne zbiory danych z nagraniami pochodzącymi od społeczności. Aby wspierać języki o ograniczonej obecności cyfrowej, Meta sztuczna inteligencja nawiązał współpracę z lokalnymi organizacjami w celu rekrutacji i wynagradzania rodzimych użytkowników języka w odległych lub słabo udokumentowanych regionach, tworząc Omnilingual ASR Corpus, największy jak dotąd zbiór danych spontanicznych ASR o bardzo niskim poziomie zasobów. Dodatkowa współpraca w ramach Programu Partnerskiego Technologii Językowych (Language Technology Partner Program) zgromadziła językoznawców, badaczy i społeczności językowe z całego świata, w tym partnerstwa z Common Voice Fundacji Mozilla i Lanfrica/NaijaVoices. Działania te zapewniły dogłębną wiedzę językową i kontekst kulturowy, gwarantując, że technologia spełnia lokalne potrzeby, a jednocześnie wspiera zróżnicowane społeczności językowe na całym świecie.

Zastrzeżenie

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Alisa, oddana dziennikarka w MPost, specjalizuje się w kryptowalutach, dowodach wiedzy zerowej, inwestycjach i ekspansywnej dziedzinie Web3. Ze szczególnym uwzględnieniem pojawiających się trendów i technologii zapewnia wszechstronne informacje, aby informować czytelników i angażować ich w stale zmieniający się krajobraz finansów cyfrowych.

Więcej artykułów
Alisę Davidson
Alisę Davidson

Alisa, oddana dziennikarka w MPost, specjalizuje się w kryptowalutach, dowodach wiedzy zerowej, inwestycjach i ekspansywnej dziedzinie Web3. Ze szczególnym uwzględnieniem pojawiających się trendów i technologii zapewnia wszechstronne informacje, aby informować czytelników i angażować ich w stale zmieniający się krajobraz finansów cyfrowych.

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wiadomości

Cisza przed sztormem Solana: co mówią teraz wykresy, wieloryby i sygnały łańcuchowe

Solana wykazała się solidnymi wynikami, na co wpływ miał rosnący popyt, zainteresowanie instytucji i kluczowe partnerstwa, mimo iż musiała stawić czoła potencjalnym...

Dowiedz się więcej

Krypto w kwietniu 2025: Kluczowe trendy, zmiany i co dalej

W kwietniu 2025 r. przestrzeń kryptowalutowa skupiła się na wzmocnieniu podstawowej infrastruktury, a Ethereum przygotowywało się na Pectra ...

Dowiedz się więcej
Czytaj więcej
Przeczytaj więcej
AILO AI i MBK Holding utworzą pierwszą w Katarze poufną fabrykę sztucznej inteligencji, a OLLM zabezpieczy do 35 MW mocy obliczeniowej
Business Raport aktualności Technologia
AILO AI i MBK Holding utworzą pierwszą w Katarze poufną fabrykę sztucznej inteligencji, a OLLM zabezpieczy do 35 MW mocy obliczeniowej
December 11, 2025
HSC Asset Management 2025 łączy aktywa kryptograficzne i instytucjonalne w Abu Zabi
Sezony hackowania Styl życia rynki Raport aktualności Technologia
HSC Asset Management 2025 łączy aktywa kryptograficzne i instytucjonalne w Abu Zabi
December 10, 2025
Bybit publikuje światowy ranking kryptowalut 2025: kto jest liderem w globalnej adopcji kryptowalut
Raport aktualności Technologia
Bybit publikuje światowy ranking kryptowalut 2025: kto jest liderem w globalnej adopcji kryptowalut
December 10, 2025
Gate Ventures wspiera Goblin Finance kwotą 1 mln dolarów na zwiększenie poziomu rentowności Aptos
Business Raport aktualności Technologia
Gate Ventures wspiera Goblin Finance kwotą 1 mln dolarów na zwiększenie poziomu rentowności Aptos
December 10, 2025
CRYPTOMERIA LABS PTE. SP. Z O.O.