VALL-E:微軟新的零鏡頭文本轉語音模型可以在三秒內復制每個人的聲音
簡單來說
只需任何語音的三秒樣本,基於 Transformer 的 TTS 模型 VALL-E 可以產生各種聲音的語音.
這是在聽起來更自然的 TTS 系統方向上的重大進步。
然而,Microsoft 提供了一些正在使用的模型示例,很明顯,這代表了 TTS 技術的重大發展。
自第一個文本轉語音 (TTS) 模型發布以來,研究人員一直在尋找改進這些系統生成語音方式的方法。 微軟最新型號, 瓦力, 是在這方面向前邁出的重要一步。
VALL-E 是一種基於變壓器的 TTS 模型,它可以在僅聽到該語音的三秒樣本後生成任何語音的語音。 與以前的模型相比,這是一個重大改進,以前的模型需要更長的訓練時間才能生成新的聲音。
此外,語音的語調、魅力和風格在生成的語音中都保持完好無損。 這是使 TTS 系統聽起來更自然的重要一步。
該模型基於變形金剛並具有 Dale-1 外觀。 不要與基於擴散的 Dalle-2 相混淆。 代碼仍然缺乏。 用戶對他們是否會發布它持懷疑態度。
不過,Microsoft 已經發布了幾個實際模型示例,很明顯這是 TTS 技術的重大進步。
例如#1:
例子 #2:
例如#3:
閱讀有關人工智能的更多信息:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。