AI初创公司MyShell发布OpenVoice算法,实现精准语音克隆
简单来说
加拿大人工智能初创公司 MyShell 宣布开源其用于即时语音克隆的 OpenVoice 算法。
Respeecher、Voicemod 和 十一实验室 – 所有这三个初创公司都有一个共同点 – 他们都提供用于制作语音克隆的算法和人工智能软件。现在,一个新玩家,加拿大人工智能初创公司 我的外壳 宣布已开源其用于即时语音克隆的 OpenVoice 算法。
MyShell 分享了更新 社交媒体平台X 并说:“克隆声音具有无与伦比的精确度,可以对音调进行精细控制,从情感到口音、节奏、停顿和语调,仅使用一个小音频片段。”
在此次合作下,麻省理工学院、MyShell.ai 和清华大学的研究人员推出了 OpenVoice,它可以复制说话者的声音并生成语音 多种语言,仅使用原始来源中的简短音频片段。它还捕捉说话者声音的独特音调和音色。
据该公司称,该算法添加了关键的风格元素,如情感、口音、节奏、停顿和语调。这些元素对于使语音听起来真实并创造有趣的对话至关重要。它有助于避免常规文本转语音时经常出现的无聊声音。
语音克隆人工智能模型如何工作
在一个 研究报告,OpenVoice 分享了其语音克隆 AI 背后的方法论。 OpenVoice 由两个不同的部分组成 AI模型:文本转语音 (TTS) 模型和“音调转换器”。
该模型可以管理风格参数和语言,并接受了英语(美式和英式口音)、汉语和日语使用者的“使用 30,000 个句子的训练”。训练包括根据表达的情绪标记样本,模型从这些音频片段中学习语调、节奏和停顿。
另一方面,音调转换器模型是在来自 300,000 多个不同说话者的超过 20,000 个音频样本的庞大数据集上进行训练的。在这两种情况下,人类语音音频都被转换为音素(区分单词的特定声音)并使用向量嵌入来表示。
TTS 模型使用“基础扬声器”,与训练过程中用户录制的音频所产生的音调相结合。这两个模型一起可以复制用户的声音并修改音色——口语文本中传达的情感表达。
这家初创公司成立于 2023 年。去年,MyShell 筹集了 5.6 万美元的种子资金,由 INCE Capital 领投,Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC 和 OP Crypto 等知名投资者参与其中。
据该公司称,这笔资金将有助于推进专有技术的发展 AI模型,创建专为人工智能原生应用程序量身定制的创作者工作室,并在区块链技术领域建立充满活力的创作者生态系统。
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Kumar 是一位经验丰富的科技记者,专注于人工智能/机器学习、营销技术以及加密货币、区块链和人工智能等新兴领域的动态交叉领域。 NFTs。 Kumar 拥有超过 3 年的行业经验,在撰写引人入胜的叙述、进行富有洞察力的采访和提供全面的见解方面建立了良好的记录。 Kumar 的专长在于制作高影响力的内容,包括为著名行业平台制作文章、报告和研究出版物。 库马尔拥有结合技术知识和讲故事的独特技能,擅长以清晰且引人入胜的方式向不同的受众传达复杂的技术概念。
更多文章Kumar 是一位经验丰富的科技记者,专注于人工智能/机器学习、营销技术以及加密货币、区块链和人工智能等新兴领域的动态交叉领域。 NFTs。 Kumar 拥有超过 3 年的行业经验,在撰写引人入胜的叙述、进行富有洞察力的采访和提供全面的见解方面建立了良好的记录。 Kumar 的专长在于制作高影响力的内容,包括为著名行业平台制作文章、报告和研究出版物。 库马尔拥有结合技术知识和讲故事的独特技能,擅长以清晰且引人入胜的方式向不同的受众传达复杂的技术概念。