Meta AI推出全语言ASR,将自动语音识别技术提升至1,600多种语言。
简单来说
Meta AI 推出了 Omnilingual ASR 系统,可为 1,600 多种语言提供语音识别,并发布了 350 种服务不足语言的开源模型和语料库。
Meta科技公司旗下专注于人工智能和增强现实技术的研究部门 元人工智能 宣布推出 Meta 全语言自动语音识别 (ASR) 系统。
这套模型可自动识别超过 1,600 种语言的语音,并以前所未有的规模实现了高质量的识别性能。此外,Meta AI 还开源了 Omnilingual wav2vec 2.0,这是一个拥有 7 亿个参数的自监督式大规模多语言语音表示模型,旨在支持各种下游语音任务。
除了这些工具之外,该组织还发布了 Omnilingual ASR Corpus,这是一个精选的、包含 350 种服务不足语言的转录语音的集合,由该组织与全球合作者共同开发。
近年来,自动语音识别技术取得了长足进步,在许多常用语言中实现了近乎完美的准确率。然而,由于现有人工智能架构对数据和计算资源的高要求,将覆盖范围扩展到资源较少的语言仍然面临挑战。Omnilingual ASR 系统通过将 wav2vec 2.0 语音编码器扩展到 7 亿个参数来解决这一限制,从而从原始的、未经转录的语音中创建丰富的多语言表示。两种解码器变体将这些表示映射到字符标记:一种使用连接主义时序分类 (CTC),另一种使用类似于大型语言模型中基于 Transformer 的方法。
这种受 LLM 启发的 ASR 方法在 1,600 多种语言中实现了最先进的性能,其中 78% 的语言字符错误率低于 10%,并且引入了一种更灵活的方法来添加新语言。
与需要专家精细调优的传统系统不同,Omnilingual ASR 仅需少量音文本配对样本即可整合此前不支持的语言,无需大量数据、专业知识或高端计算资源即可实现转录。虽然零样本结果目前尚不及完全训练的系统,但这种方法为将服务不足的语言纳入数字生态系统提供了一种可扩展的方式。
Meta AI 利用全语言 ASR 套件和语料库推进语音识别技术
该研究部门发布了一套全面的模型和一个数据集,旨在推进任何语言的语音技术发展。基于 FAIR 此前的研究成果,Omnilingual ASR 包含两种解码器变体,从适用于低功耗设备的轻量级 300 亿模型到可在各种应用中提供高精度的 7 亿模型,应有尽有。通用的 wav2vec 2.0 语音基础模型也提供多种规模,使其能够胜任除 ASR 之外的各种语音相关任务。所有模型均采用 Apache 2.0 许可,数据集采用 CC-BY 许可,这使得研究人员、开发人员和语言倡导者能够利用 FAIR 的开源 fairseq2 框架在 PyTorch 生态系统中适配和扩展语音解决方案。
Omnilingual ASR 使用迄今为止规模最大、语言最多样化的 ASR 语料库之一进行训练,该语料库结合了公开数据集和社区提供的录音。为了支持数字普及程度较低的语言, 元人工智能 我们与当地组织合作,在偏远或信息匮乏的地区招募并补偿母语人士,创建了迄今为止规模最大的超低资源自发语音识别数据集——全语言自动语音识别语料库(Omnilingual ASR Corpus)。此外,通过语言技术合作伙伴计划,我们与世界各地的语言学家、研究人员和语言社区开展了合作,包括与 Mozilla 基金会的 Common Voice 和 Lanfrica/NaijaVoices 的合作。这些努力提供了深入的语言学见解和文化背景,确保该技术在满足当地需求的同时,也赋能全球多元化的语言社区。
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Alisa,一名热心记者 MPost,专注于加密货币、零知识证明、投资以及广泛的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。
更多文章
Alisa,一名热心记者 MPost,专注于加密货币、零知识证明、投资以及广泛的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。