Meta AI представляє всемовне ASR, покращуючи автоматичне розпізнавання мовлення більш ніж 1,600 мовами
Коротко
Meta AI запустила систему Omnilingual ASR, яка забезпечує розпізнавання мовлення для понад 1,600 мов, а також випустила моделі з відкритим кодом і корпус для 350 малоохоплених мов.
Дослідницький підрозділ технологічної компанії Meta, що спеціалізується на штучному інтелекті та доповненій реальності, Мета ШІ оголосила про випуск системи автоматичного розпізнавання мовлення Meta Omnilingual Speech Recognition (ASR).
Цей набір моделей забезпечує автоматичне розпізнавання мовлення для понад 1,600 мов, досягаючи високої якості роботи в безпрецедентних масштабах. Крім того, Meta AI — це Omnilingual wav2vec 2.0 з відкритим вихідним кодом, самокерована, масово багатомовна модель представлення мовлення з 7 мільярдами параметрів, розроблена для підтримки різноманітних завдань обробки мовлення.
Поряд із цими інструментами, організація також випускає «Омнілінгвальний корпус ASR» – кураторську колекцію транскрибованого мовлення з 350 малоосвітніх мов, розроблену у партнерстві з глобальними партнерами.
Автоматичне розпізнавання мовлення значно просунулося за останні роки, досягнувши майже ідеальної точності для багатьох широко розмовних мов. Однак розширення охоплення на менш ресурсоємні мови залишається складним завданням через високі вимоги до даних та обчислень існуючих архітектур штучного інтелекту. Система Omnilingual ASR усуває це обмеження, масштабуючи кодер мовлення wav2vec 2.0 до 7 мільярдів параметрів, створюючи багаті багатомовні представлення із сирого, нетранскрибованого мовлення. Два варіанти декодера відображають ці представлення на символьні токени: один використовує конекціоністську часову класифікацію (CTC), а інший використовує підхід на основі трансформатора, подібний до тих, що використовуються у великих мовних моделях.
Цей підхід ASR, натхненний LLM, досягає найсучаснішої продуктивності для понад 1,600 мов, з коефіцієнтом помилок символів менше 10 для 78% з них, а також пропонує гнучкіший метод додавання нових мов.
На відміну від традиційних систем, які потребують тонкого налаштування експертів, Omnilingual ASR може включати раніше непідтримувану мову, використовуючи лише кілька парних прикладів аудіотексту, що дозволяє транскрипцію без великого обсягу даних, спеціалізованої експертизи чи високопродуктивних обчислень. Хоча результати з нульовим шансом ще не відповідають повністю навченим системам, цей метод забезпечує масштабований спосіб залучення недостатньо обслуговуваних мов до цифрової екосистеми.
Мета-ШІ покращить розпізнавання мовлення за допомогою багатомовного пакету ASR та корпусу
Дослідницький відділ випустив комплексний набір моделей та набір даних, розроблених для вдосконалення технологій мовлення для будь-якої мови. Спираючись на попередні дослідження FAIR, Omnilingual ASR включає два варіанти декодерів, починаючи від легких моделей 300M для пристроїв з низьким енергоспоживанням і закінчуючи моделями 7B, що пропонують високу точність у різних застосуваннях. Загальноцільна базова модель мовлення wav2vec 2.0 також доступна в кількох розмірах, що дозволяє виконувати широкий спектр завдань, пов'язаних з мовленням, поза межами ASR. Усі моделі надаються за ліцензією Apache 2.0, а набір даних доступний за ліцензією CC-BY, що дозволяє дослідникам, розробникам та прихильникам мов адаптувати та розширювати рішення для мовлення за допомогою фреймворку fairseq2 з відкритим кодом від FAIR в екосистемі PyTorch.
Всемовний ASR навчається на одному з найбільших та лінгвістично найрізноманітніших корпусів ASR, що будь-коли збиралися, поєднуючи загальнодоступні набори даних із записами, отриманими з громадських джерел. Для підтримки мов з обмеженою цифровою присутністю, Мета ШІ співпрацювала з місцевими організаціями для залучення та компенсації носіїв мови у віддалених або недостатньо документованих регіонах, створивши Омнілінгвальний корпус ASR, найбільший на сьогоднішній день набір даних спонтанного ASR з наднизьким рівнем ресурсів. Додаткова співпраця в рамках Партнерської програми з мовних технологій об’єднала лінгвістів, дослідників та мовні спільноти з усього світу, включаючи партнерство з Common Voice та Lanfrica/NaijaVoices Фонду Mozilla. Ці зусилля забезпечили глибоке лінгвістичне розуміння та культурний контекст, гарантуючи, що технологія відповідає місцевим потребам, одночасно розширюючи можливості різноманітних мовних спільнот у всьому світі.
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, доказах з нульовим знанням, інвестиціях і великій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.
інші статті
Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, доказах з нульовим знанням, інвестиціях і великій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.