新闻报道 微博 专业技术
2023 年 5 月 30 日

SoundStorm:谷歌推出能够实时复制语音的可怕人工智能工具

简单来说

谷歌推出了 SoundStorm,这是一种用于高效和非自回归音频生成的尖端模型。

它采用双向注意力和基于置信度的并行解码来生成高质量音频,同时显着缩短生成时间。

它还具有合成自然对话的能力。

谷歌推出了其在人工智能技术方面的最新突破 声音风暴,一种用于高效和非自回归音频生成的尖端模型。 有能力 综合对话 通过不同的声音,SoundStorm 为应用程序开辟了新的可能性,例如从书面文本生成音频内容和创建逼真的播客。

SoundStorm:谷歌推出能够实时复制语音的可怕人工智能工具
@Midjourney

不同于它的前身 音频LM, SoundStorm 采用了一种新颖的架构,以 30 秒为单位生成音频,从而提高了效率。 通过利用双向注意力和基于置信度的并行解码,该模型可生成高质量音频,同时显着缩短生成时间。 在谷歌的 TPU-v4 硬件上,SoundStorm 可以在 30 秒内生成 0.5 秒的音频,标志着速度的大幅提升。

SoundStorm 的训练是使用包含 100,000 小时对话的庞大数据集进行的,确保对口语模式的深入理解。 该模型在语音和声学条件方面实现了令人印象深刻的一致性,同时保持了 AudioLM 实现的音频质量。 这一突破使 SoundStorm 比其前身快两个数量级,展示了其可扩展音频生成的潜力。

SoundStorm 的关键功能之一是它能够通过利用 SPEAR-TTS 的文本到语义建模阶段来合成自然对话。 通过提供带有说话者轮流和简短语音提示的转录,用户可以控制说话的内容和说话者的声音。 在测试期间,SoundStorm 展示了在单个 TPU-v30 上仅需 2 秒即可合成 4 秒对话片段的能力,展示了其效率和多功能性。

语音提示

综合对话

与标准基线相比,SoundStorm 生成的音频质量与 AudioLM 相当,并表现出卓越的一致性和声学完整性。 值得注意的是,当提示提供语音样本时,该模型以惊人的准确性保留了说话者的声音,大大提高了其生成逼真对话的能力。

虽然 SoundStorm 的功能非常出色,但识别并解决可能的问题至关重要 伦理问题。 算法的训练数据可能会引入与口音和语音特征相关的偏差。 模仿声音的能力可能会被滥用 冒充 或规避生物特征识别。 谷歌强调了采取保护措施以防止此类滥用的重要性, 确保可检测性 通过专用分类器创建的音频。

谷歌的人工智能道德原则推动其不断努力解决潜在的危险和限制。 该组织意识到需要对训练数据及其对模型输出的影响进行彻底研究。 他们还计划研究其他方法,例如音频水印,用于检测合成语音以合乎道德地使用该技术。

  • SoundStorm 是人工智能音频制作的一大进步,它提供了高质量和高效的神经音频编解码器衍生的音频表示。 谷歌预计 SoundStorm 较低的内存和处理需求将使更广泛的社区更容易进行音频生成研究。 谷歌仍然致力于维护负责任的 AI 实践,并确保安全和负责任地使用 SoundStorm 以及随着技术的发展在该领域取得类似的突破。
  • 瓦力,Microsoft 最新的文本转语音 (TTS) 模型,在增强这些系统生成语音的方式方面向前迈出了一大步。 VALL-E 是一个 语音合成模型 基于可以在仅听到该语音的三秒样本后以任何语音生成语音的转换器。 与早期模型相比,这是一个很大的进步,早期模型需要更长的训练时间才能开发出新的声音。

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Galxe 与 Jambo 合作扩大全球可及性 Web3

by 艾丽莎·戴维森
2024 年 5 月 02 日
加入我们的时事通讯。
最新消息

Galxe 与 Jambo 合作扩大全球可及性 Web3

by 艾丽莎·戴维森
2024 年 5 月 02 日

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多

Samourai Wallet 创始人被指控在暗网交易中协助 2 亿美元

Samourai 钱包创始人的被捕对整个行业来说是一个显着的挫折,凸显了持续的......

了解更多
加入我们的创新技术社区
了解更多
查看更多
Pantera Capital 投资 TON 区块链,对 Telegram 扩大加密货币可访问性的潜力充满信心
企业 新闻报道 专业技术
Pantera Capital 投资 TON 区块链,对 Telegram 扩大加密货币可访问性的潜力充满信心
2024 年 5 月 2 日
Mitosis 从 Amber Group 和 Foresight Ventures 筹集了 7 万美元资金,以推进其模块化流动性协议
企业 新闻报道 专业技术
Mitosis 从 Amber Group 和 Foresight Ventures 筹集了 7 万美元资金,以推进其模块化流动性协议
2024 年 5 月 2 日
Galxe 与 Jambo 合作扩大全球可及性 Web3
企业 新闻报道 专业技术
Galxe 与 Jambo 合作扩大全球可及性 Web3
2024 年 5 月 2 日
谷歌的 Med-Gemini 准备抢占先机 GPT-4 凭借其在医疗保健领域的卓越表现
AI Wiki 新闻 软件 专业技术
谷歌的 Med-Gemini 准备抢占先机 GPT-4 凭借其在医疗保健领域的卓越表现
2024 年 5 月 2 日