新聞報導 微博 專業技術
2023 年 5 月 30 日

SoundStorm:谷歌推出能夠實時復制語音的可怕人工智能工具

簡單來說

谷歌推出了 SoundStorm,這是一種用於高效和非自回歸音頻生成的尖端模型。

它採用雙向注意力和基於置信度的並行解碼來生成高質量音頻,同時顯著縮短生成時間。

它還具有合成自然對話的能力。

谷歌推出了其在人工智能技術方面的最新突破 聲音風暴,一種用於高效和非自回歸音頻生成的尖端模型。 有能力 綜合對話 通過不同的聲音,SoundStorm 為應用程序開闢了新的可能性,例如從書面文本生成音頻內容和創建逼真的播客。

SoundStorm:谷歌推出能夠實時復制語音的可怕人工智能工具
@Midjourney

與它的前身不同 音頻LM, SoundStorm 採用了一種新穎的架構,以 30 秒為單位生成音頻,從而提高了效率。 通過利用雙向注意力和基於置信度的並行解碼,該模型可生成高質量音頻,同時顯著縮短生成時間。 在谷歌的 TPU-v4 硬件上,SoundStorm 可以在 30 秒內生成 0.5 秒的音頻,標誌著速度的大幅提升。

SoundStorm 的訓練是使用包含 100,000 小時對話的龐大數據集進行的,確保對口語模式的深入理解。 該模型在語音和聲學條件方面實現了令人印象深刻的一致性,同時保持了 AudioLM 實現的音頻質量。 這一突破使 SoundStorm 比其前身快兩個數量級,展示了其可擴展音頻生成的潛力。

SoundStorm 的關鍵功能之一是它能夠通過利用 SPEAR-TTS 的文本到語義建模階段來合成自然對話。 通過提供帶有說話者輪流和簡短語音提示的轉錄,用戶可以控制說話的內容和說話者的聲音。 在測試期間,SoundStorm 展示了在單個 TPU-v30 上僅需 2 秒即可合成 4 秒對話片段的能力,展示了其效率和多功能性。

語音提示

綜合對話

與標準基線相比,SoundStorm 生成的音頻質量與 AudioLM 相當,並表現出卓越的一致性和聲學完整性。 值得注意的是,當提示提供語音樣本時,該模型以驚人的準確性保留了說話者的聲音,大大提高了其生成逼真對話的能力。

雖然 SoundStorm 的功能非常出色,但識別並解決可能的問題至關重要 的倫理問題。 演算法的訓練資料可能會引入與口音和語音特徵相關的偏差。 模仿聲音的能力可能會被濫用 冒充 或規避生物特徵識別。 谷歌強調了採取保護措施以防止此類濫用的重要性, 確保可檢測性 通過專用分類器創建的音頻。

谷歌的人工智能道德原則推動其不斷努力解決潛在的危險和限制。 該組織意識到需要對訓練數據及其對模型輸出的影響進行徹底研究。 他們還計劃研究其他方法,例如音頻水印,用於檢測合成語音以合乎道德地使用該技術。

  • SoundStorm 是人工智能音頻製作的一大進步,它提供了高質量和高效的神經音頻編解碼器派生的音頻表示。 谷歌預計 SoundStorm 較低的內存和處理需求將使更廣泛的社區更容易進行音頻生成研究。 谷歌仍然致力於維護負責任的 AI 實踐,並確保安全和負責任地使用 SoundStorm 以及隨著技術的發展在該領域取得類似的突破。
  • 瓦力,Microsoft 最新的文本轉語音 (TTS) 模型,在增強這些系統生成語音的方式方面向前邁出了一大步。 VALL-E 是一個 語音合成模型 基於可以在僅聽到該語音的三秒樣本後以任何語音生成語音的轉換器。 與早期模型相比,這是一個很大的進步,早期模型需要更長的訓練時間才能開發出新的聲音。

閱讀有關人工智能的更多信息:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

金磚國家關注穩定幣貿易解決方案

by 維多利亞·帕爾奇克
2024 年 5 月 01 日

比特幣 L2 網路 BOB 與 LayerZero 整合以增強功能

by 艾莉莎戴維森
2024 年 5 月 01 日
加入我們的時事通訊。
最新消息

比特幣 L2 網路 BOB 與 LayerZero 整合以增強功能

by 艾莉莎戴維森
2024 年 5 月 01 日

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多

Samourai Wallet 創辦人被指控在暗網交易中協助 2 億美元

Samourai 錢包創始人的被捕對整個行業來說是一個顯著的挫折,凸顯了持續的...

了解更多
加入我們的創新技術社區
了解更多
阅读更多
Ankr 與人工智慧區塊鏈平台 Talus Network 合作,為人工智慧解鎖比特幣流動性
購物 新聞報導 專業技術
Ankr 與人工智慧區塊鏈平台 Talus Network 合作,為人工智慧解鎖比特幣流動性
2024 年 5 月 1 日
幣安實驗室支援Movement Labs以促進Facebook跨區塊鏈的Move集成
購物 新聞報導 專業技術
幣安實驗室支援Movement Labs以促進Facebook跨區塊鏈的Move集成
2024 年 5 月 1 日
金磚國家關注穩定幣貿易解決方案
購物 市場 故事和評論 專業技術
金磚國家關注穩定幣貿易解決方案
2024 年 5 月 1 日
比特幣 L2 網路 BOB 與 LayerZero 整合以增強功能
購物 新聞報導 專業技術
比特幣 L2 網路 BOB 與 LayerZero 整合以增強功能
2024 年 5 月 1 日