谷歌发布 Gemini 3.1 Flash TTS:开启超逼真、完全可控的 AI 语音生成新时代
简单来说
Google 发布了 Gemini 3.1 Flash TTS,这是一款先进的文本转语音模型,具有改进的控制性、表现力和多语言支持,适用于 AI 驱动的语音应用程序。

科技公司 Google 宣布推出 Gemini 3.1 Flash 文本转语音 (TTS),这是一款新一代语音合成模型,旨在提高开发人员、企业和最终用户构建 AI 驱动音频应用程序时的可控性、表现力和输出质量。
Gemini 3.1 Flash TTS 目前已在多个 Google 平台上推出。开发者可通过 Gemini API 和 Google AI Studio 预览该模型,企业用户则可通过 Vertex AI 预览该模型。此外,Google Workspace 用户也可通过 Google Vids 集成该模型,从而进一步扩大其在消费者和专业环境中的应用范围。
更新后的系统代表了合成语音生成技术的进步,谷歌表示,其在自然度和表现力方面均有显著提升。根据人工智能分析公司(Artificial Analysis)的独立基准测试(该公司使用大规模人类偏好数据评估语音模型),Gemini 3.1 Flash TTS 的 Elo 得分达到了 1,211 分。该评估将模型归类为高性能类别,兼具出色的语音质量和相对较高的成本效益。该系统还支持 70 多种语言,并包含多说话人对话功能,以及由自然语言输入驱动的精细控制选项。
扩展的语音生成控制和创意指导
此次发布的一项关键特性是引入了音频标签,这种机制允许用户通过将结构化指令直接嵌入文本提示中,更精确地控制语音输出。这些控制功能支持在单个生成工作流程中调整语速、语调和语音风格。该系统还支持分层指令,允许开发人员…… defi通过可配置的音频配置文件,为场景上下文分配说话人角色,并在全局和句子级别修改交付属性。
在采用 Vertex AI 的企业环境中,这些控件旨在支持更高级的生产用例,包括为需要一致角色语音或动态对话系统的应用生成可扩展的语音。该集成还包括导出功能,允许将生成的配置转换为 API 就绪格式,以便在不同的平台和服务上部署。
该模型定位为适合全球规模部署,在70多种语言中均表现出色。这种多语言能力与增强的韵律控制相结合,能够在不同的语言环境中实现更具本地化和自然感的语音输出。
来自开发者和企业用户的早期测试反馈表明,语音设计的精确度有所提高,表达输出的塑造也更加灵活。音频标签的使用被认为是一项重要的补充,有助于构建更复杂的语音交互,尤其是在需要角色驱动或叙事性音频生成的场景中。
所有通过 Gemini 3.1 Flash TTS 生成的音频输出都嵌入了 SynthID 水印技术。该系统会在生成的音频内容中引入一个不易察觉的标识符,从而能够检测 AI 生成的媒体,并有助于提高内容真实性,降低滥用风险。
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Alisa,一名热心记者 MPost专注于加密货币、人工智能、投资以及广阔的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。
更多文章
Alisa,一名热心记者 MPost专注于加密货币、人工智能、投资以及广阔的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。



