Google發佈 Gemini 3.1 Flash TTS:開啟超逼真、完全可控制的 AI 語音生成新時代
簡單來說
Google 發布了 Gemini 3.1 Flash TTS,這是一款先進的文字轉語音模型,具有改進的控制性、表現力和多語言支持,適用於 AI 驅動的語音應用程式。

科技公司 Google 宣布推出 Gemini 3.1 Flash 文字轉語音 (TTS),這是一款新一代語音合成模型,旨在提高開發人員、企業和最終用戶構建 AI 驅動音訊應用程式時的可控性、表現力和輸出品質。
Gemini 3.1 Flash TTS 目前已在多個 Google 平台上推出。開發者可透過 Gemini API 和 Google AI Studio 預覽模型,企業用戶則可透過 Vertex AI 預覽模型。此外,Google Workspace 使用者也可透過 Google Vids 整合此模型,進而進一步擴大其在消費者和專業環境中的應用範圍。
更新後的系統代表了合成語音生成技術的進步,Google表示,其在自然度和表現力方面均有顯著提升。根據人工智慧分析公司(Artificial Analysis)的獨立基準測試(該公司使用大規模人類偏好數據評估語音模型),Gemini 3.1 Flash TTS 的 Elo 得分達到了 1,211 分。該評估將模型歸類為高性能類別,兼具出色的語音品質和相對較高的成本效益。該系統還支援 70 多種語言,並包含多說話人對話功能,以及由自然語言輸入驅動的精細控制選項。
擴展的語音生成控制和創意指導
此次發布的一項關鍵特性是引入了音訊標籤,這種機制允許使用者透過將結構化指令直接嵌入文字提示中,更精確地控制語音輸出。這些控制功能支援在單一生成工作流程中調整語速、語調和語音風格。該系統還支援分層指令,允許開發人員… defi透過可設定的音訊設定文件,為場景上下文指派說話者角色,並在全域和句子層級修改交付屬性。
在採用 Vertex AI 的企業環境中,這些控制項旨在支援更進階的生產用例,包括為需要一致角色語音或動態對話系統的應用程式產生可擴展的語音。此整合還包括匯出功能,允許將產生的配置轉換為 API 就緒格式,以便在不同的平台和服務上部署。
此模型定位為適合全球規模部署,在70多種語言中均表現出色。這種多語言能力與增強的韻律控制相結合,能夠在不同的語言環境中實現更具本地化和自然感的語音輸出。
來自開發者和企業用戶的早期測試回饋表明,語音設計的精確度有所提高,表達輸出的塑造也更加靈活。音頻標籤的使用被認為是一項重要的補充,有助於建立更複雜的語音交互,尤其是在需要角色驅動或敘事性音訊生成的場景中。
所有透過 Gemini 3.1 Flash TTS 產生的音訊輸出都嵌入了 SynthID 浮水印技術。該系統會在生成的音訊內容中引入一個不易察覺的標識符,從而能夠檢測 AI 生成的媒體,並有助於提高內容真實性,降低濫用風險。
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Alisa,一位熱心記者 MPost專注於加密貨幣、人工智慧、投資以及廣闊的領域 Web3。她對新興趨勢和技術有著敏銳的洞察力,提供全面的報道,讓讀者了解並吸引讀者了解不斷發展的數位金融領域。
更多文章
Alisa,一位熱心記者 MPost專注於加密貨幣、人工智慧、投資以及廣闊的領域 Web3。她對新興趨勢和技術有著敏銳的洞察力,提供全面的報道,讓讀者了解並吸引讀者了解不斷發展的數位金融領域。



