Звіт про новини Технологія
Листопад 11, 2025

Meta AI представляє всемовне ASR, покращуючи автоматичне розпізнавання мовлення більш ніж 1,600 мовами

Коротко

Meta AI запустила систему Omnilingual ASR, яка забезпечує розпізнавання мовлення для понад 1,600 мов, а також випустила моделі з відкритим кодом і корпус для 350 малоохоплених мов.

Meta AI представляє всемовне ASR, покращуючи автоматичне розпізнавання мовлення більш ніж 1,600 мовами

Дослідницький підрозділ технологічної компанії Meta, що спеціалізується на штучному інтелекті та доповненій реальності, Мета ШІ оголосила про випуск системи автоматичного розпізнавання мовлення Meta Omnilingual Speech Recognition (ASR). 

Цей набір моделей забезпечує автоматичне розпізнавання мовлення для понад 1,600 мов, досягаючи високої якості роботи в безпрецедентних масштабах. Крім того, Meta AI — це Omnilingual wav2vec 2.0 з відкритим вихідним кодом, самокерована, масово багатомовна модель представлення мовлення з 7 мільярдами параметрів, розроблена для підтримки різноманітних завдань обробки мовлення.

Поряд із цими інструментами, організація також випускає «Омнілінгвальний корпус ASR» – кураторську колекцію транскрибованого мовлення з 350 малоосвітніх мов, розроблену у партнерстві з глобальними партнерами.

Автоматичне розпізнавання мовлення значно просунулося за останні роки, досягнувши майже ідеальної точності для багатьох широко розмовних мов. Однак розширення охоплення на менш ресурсоємні мови залишається складним завданням через високі вимоги до даних та обчислень існуючих архітектур штучного інтелекту. Система Omnilingual ASR усуває це обмеження, масштабуючи кодер мовлення wav2vec 2.0 до 7 мільярдів параметрів, створюючи багаті багатомовні представлення із сирого, нетранскрибованого мовлення. Два варіанти декодера відображають ці представлення на символьні токени: один використовує конекціоністську часову класифікацію (CTC), а інший використовує підхід на основі трансформатора, подібний до тих, що використовуються у великих мовних моделях.

Цей підхід ASR, натхненний LLM, досягає найсучаснішої продуктивності для понад 1,600 мов, з коефіцієнтом помилок символів менше 10 для 78% з них, а також пропонує гнучкіший метод додавання нових мов. 

На відміну від традиційних систем, які потребують тонкого налаштування експертів, Omnilingual ASR може включати раніше непідтримувану мову, використовуючи лише кілька парних прикладів аудіотексту, що дозволяє транскрипцію без великого обсягу даних, спеціалізованої експертизи чи високопродуктивних обчислень. Хоча результати з нульовим шансом ще не відповідають повністю навченим системам, цей метод забезпечує масштабований спосіб залучення недостатньо обслуговуваних мов до цифрової екосистеми.

Мета-ШІ покращить розпізнавання мовлення за допомогою багатомовного пакету ASR та корпусу 

Дослідницький відділ випустив комплексний набір моделей та набір даних, розроблених для вдосконалення технологій мовлення для будь-якої мови. Спираючись на попередні дослідження FAIR, Omnilingual ASR включає два варіанти декодерів, починаючи від легких моделей 300M для пристроїв з низьким енергоспоживанням і закінчуючи моделями 7B, що пропонують високу точність у різних застосуваннях. Загальноцільна базова модель мовлення wav2vec 2.0 також доступна в кількох розмірах, що дозволяє виконувати широкий спектр завдань, пов'язаних з мовленням, поза межами ASR. Усі моделі надаються за ліцензією Apache 2.0, а набір даних доступний за ліцензією CC-BY, що дозволяє дослідникам, розробникам та прихильникам мов адаптувати та розширювати рішення для мовлення за допомогою фреймворку fairseq2 з відкритим кодом від FAIR в екосистемі PyTorch.

Всемовний ASR навчається на одному з найбільших та лінгвістично найрізноманітніших корпусів ASR, що будь-коли збиралися, поєднуючи загальнодоступні набори даних із записами, отриманими з громадських джерел. Для підтримки мов з обмеженою цифровою присутністю, Мета ШІ співпрацювала з місцевими організаціями для залучення та компенсації носіїв мови у віддалених або недостатньо документованих регіонах, створивши Омнілінгвальний корпус ASR, найбільший на сьогоднішній день набір даних спонтанного ASR з наднизьким рівнем ресурсів. Додаткова співпраця в рамках Партнерської програми з мовних технологій об’єднала лінгвістів, дослідників та мовні спільноти з усього світу, включаючи партнерство з Common Voice та Lanfrica/NaijaVoices Фонду Mozilla. Ці зусилля забезпечили глибоке лінгвістичне розуміння та культурний контекст, гарантуючи, що технологія відповідає місцевим потребам, одночасно розширюючи можливості різноманітних мовних спільнот у всьому світі.

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, доказах з нульовим знанням, інвестиціях і великій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.

інші статті
Аліса Девідсон
Аліса Девідсон

Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, доказах з нульовим знанням, інвестиціях і великій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Затишшя перед штормом Солана: що зараз говорять графіки, кити та сигнали на мережі

Солана продемонструвала високі показники, зумовлені зростанням рівня впровадження, інституційного інтересу та ключових партнерств, водночас стикаючись з потенційними ...

Дізнайтеся більше

Криптовалюта у квітні 2025 року: ключові тенденції, зміни та що буде далі

У квітні 2025 року криптовалютний простір зосередився на зміцненні базової інфраструктури, а Ethereum готувався до Pectra ...

Дізнайтеся більше
Детальніше
Читати далі
Bakkt придбає дослідження розподілених технологій, прискорюючи розширення стейблкоїнів та цифрових активів
Business Звіт про новини Технологія
Bakkt придбає дослідження розподілених технологій, прискорюючи розширення стейблкоїнів та цифрових активів
Січень 12, 2026
Криптовалюта в середині січня: нестабільна, вагається і все ще вирішує
ринки Звіт про новини
Криптовалюта в середині січня: нестабільна, вагається і все ще вирішує
Січень 12, 2026
CoinShares: американські криптовалютні ETF демонструють відтік капіталу, тоді як XRP, Solana та Sui залучають капітал
ринки Звіт про новини Технологія
CoinShares: американські криптовалютні ETF демонструють відтік капіталу, тоді як XRP, Solana та Sui залучають капітал
Січень 12, 2026
Найкращі події з криптовалют та цифрових активів, які варто відвідати в Гонконзі цього лютого
Злом сезонів Business Стиль життя Звіт про новини Технологія
Найкращі події з криптовалют та цифрових активів, які варто відвідати в Гонконзі цього лютого
Січень 12, 2026
CRYPTOMERIA LABS PTE. LTD.