新的 AI 模型使用 YouTube 和播客合成逼真的语音
简单来说
卡内基梅隆大学的研究人员创建了一种新的人工智能模型,能够通过学习 YouTube 视频和 播客.
该模型能够通过收听近 900 小时的 YouTube 和播客内容来学习自然语音模式的细微差别,从而产生更加逼真和逼真的合成语音。
美国卡耐基梅隆大学研究人员 已经创造出来了 一种新的人工智能模型,能够通过从 YouTube 视频和播客中学习来生成逼真的语音。 该模型能够产生各种声音和口音的语音,使其成为娱乐和广告等行业的潜在有用工具。 它也可能对那些依赖辅助技术进行交流的人产生影响。
这是一个重大的发展,因为大多数人工智能生成的语音被发现是没有感情和单调的,因为它通常是在记录专业演员语音的数据集上进行训练的。 新技术可用于提高虚拟助手和聊天机器人的性能,使它们更具吸引力和人性化。 它还在游戏、教育和娱乐等领域具有潜在的应用。
然而,新模型能够通过收听近 900 小时的 YouTube 和播客内容来学习自然语音模式的细微差别,例如停顿、感叹词和寄生词。 这产生了一种更逼真、更逼真的合成语音,被要求对其进行评估的人在五分制中给出了 3.89 的评分。 这高于类似 AI 模型获得的平均分数(真人语音得分 4.01)。
这项技术的潜在应用非常广泛,包括帮助有语言障碍的人、改进导航系统以及创建听起来更自然的虚拟助手。
- 播客AI 是 AI 制作的第一个播客,其中包含乔罗根采访史蒂夫乔布斯的恶搞。 这个播客完全由人工智能计算机算法制作。 人工智能使用史蒂夫·乔布斯的传记和任何可以找到的关于他的互联网记录接受了史蒂夫·乔布斯剧集的训练。 这使得 AI 能够忠实地重现他的个性。
阅读更多相关文章:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。