Meta AI wprowadza wielojęzykową technologię ASR, która usprawnia automatyczne rozpoznawanie mowy w ponad 1,600 językach
W skrócie
Firma Meta AI wprowadziła na rynek system Omnilingual ASR, umożliwiający rozpoznawanie mowy w ponad 1,600 językach, a także udostępniła modele open source i korpus dla 350 języków, które nie są powszechnie obsługiwane.
Dział badawczy firmy technologicznej Meta specjalizującej się w sztucznej inteligencji i rzeczywistości rozszerzonej, Meta sztuczna inteligencja ogłosiła wydanie systemu Meta Omnilingual Automatic Speech Recognition (ASR).
Ten zestaw modeli zapewnia automatyczne rozpoznawanie mowy w ponad 1,600 językach, osiągając wysoką jakość działania na niespotykaną dotąd skalę. Ponadto Meta AI udostępnia na zasadzie open source Omnilingual wav2vec 2.0 – samonadzorowany, masowo wielojęzyczny model reprezentacji mowy z 7 miliardami parametrów, zaprojektowany do obsługi różnorodnych zadań związanych z mową.
Oprócz tych narzędzi organizacja udostępnia również Omnilingual ASR Corpus, czyli starannie dobrany zbiór transkrybowanych wypowiedzi z 350 języków, które nie są powszechnie używane, opracowany we współpracy z globalnymi partnerami.
Automatyczne rozpoznawanie mowy rozwinęło się w ostatnich latach, osiągając niemal idealną dokładność w wielu powszechnie używanych językach. Rozszerzenie zasięgu na języki o mniejszych zasobach pozostaje jednak trudne ze względu na wysokie wymagania obliczeniowe i dotyczące danych istniejących architektur sztucznej inteligencji. System Omnilingual ASR rozwiązuje to ograniczenie, skalując koder mowy wav2vec 2.0 do 7 miliardów parametrów, tworząc bogate, wielojęzyczne reprezentacje z surowej, nietranskrybowanej mowy. Dwa warianty dekodera odwzorowują te reprezentacje na tokeny znaków: jeden wykorzystuje koneksjonistyczną klasyfikację czasową (CTC), a drugi wykorzystuje podejście oparte na transformatorach, podobne do tych stosowanych w dużych modelach językowych.
To podejście ASR, zainspirowane LLM, osiąga najnowocześniejszą wydajność w ponad 1,600 językach, przy wskaźniku błędów znaków poniżej 10 w przypadku 78% z nich, a także wprowadza bardziej elastyczną metodę dodawania nowych języków.
W przeciwieństwie do tradycyjnych systemów, które wymagają dopracowania przez ekspertów, Omnilingual ASR może włączyć język, który wcześniej nie był obsługiwany, wykorzystując jedynie kilka sparowanych przykładów audio-tekstowych, umożliwiając transkrypcję bez obszernych danych, specjalistycznej wiedzy czy zaawansowanych obliczeń. Chociaż wyniki zerowe nie odpowiadają jeszcze w pełni wytrenowanym systemom, ta metoda zapewnia skalowalny sposób na wprowadzenie niedostatecznie obsługiwanych języków do ekosystemu cyfrowego.
Meta AI usprawnia rozpoznawanie mowy dzięki wielojęzykowemu pakietowi ASR i korpusowi
Dział badawczy opublikował kompleksowy zestaw modeli i zbiór danych zaprojektowany z myślą o rozwoju technologii mowy dla dowolnego języka. Bazując na wcześniejszych badaniach FAIR, Omnilingual ASR obejmuje dwa warianty dekodera, od lekkich modeli 300M dla urządzeń o niskim poborze mocy, po modele 7B oferujące wysoką dokładność w różnorodnych zastosowaniach. Uniwersalny model podstawy mowy wav2vec 2.0 jest również dostępny w wielu rozmiarach, umożliwiając szeroki zakres zadań związanych z mową wykraczających poza ASR. Wszystkie modele są udostępniane na licencji Apache 2.0, a zbiór danych jest dostępny na licencji CC-BY, co pozwala badaczom, programistom i orędownikom języków na adaptację i rozszerzanie rozwiązań mowy za pomocą otwartego frameworka fairseq2 FAIR w ekosystemie PyTorch.
Omnilingual ASR jest trenowany na jednym z największych i najbardziej zróżnicowanych językowo korpusów ASR, jakie kiedykolwiek stworzono, łącząc publicznie dostępne zbiory danych z nagraniami pochodzącymi od społeczności. Aby wspierać języki o ograniczonej obecności cyfrowej, Meta sztuczna inteligencja nawiązał współpracę z lokalnymi organizacjami w celu rekrutacji i wynagradzania rodzimych użytkowników języka w odległych lub słabo udokumentowanych regionach, tworząc Omnilingual ASR Corpus, największy jak dotąd zbiór danych spontanicznych ASR o bardzo niskim poziomie zasobów. Dodatkowa współpraca w ramach Programu Partnerskiego Technologii Językowych (Language Technology Partner Program) zgromadziła językoznawców, badaczy i społeczności językowe z całego świata, w tym partnerstwa z Common Voice Fundacji Mozilla i Lanfrica/NaijaVoices. Działania te zapewniły dogłębną wiedzę językową i kontekst kulturowy, gwarantując, że technologia spełnia lokalne potrzeby, a jednocześnie wspiera zróżnicowane społeczności językowe na całym świecie.
Zastrzeżenie
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Alisa, oddana dziennikarka w MPost, specjalizuje się w kryptowalutach, dowodach wiedzy zerowej, inwestycjach i ekspansywnej dziedzinie Web3. Ze szczególnym uwzględnieniem pojawiających się trendów i technologii zapewnia wszechstronne informacje, aby informować czytelników i angażować ich w stale zmieniający się krajobraz finansów cyfrowych.
Więcej artykułów
Alisa, oddana dziennikarka w MPost, specjalizuje się w kryptowalutach, dowodach wiedzy zerowej, inwestycjach i ekspansywnej dziedzinie Web3. Ze szczególnym uwzględnieniem pojawiających się trendów i technologii zapewnia wszechstronne informacje, aby informować czytelników i angażować ich w stale zmieniający się krajobraz finansów cyfrowych.