SingSong:谷歌 AI 研究人員找到了一種生成音樂來伴奏輸入人聲的方法
簡單來說
名為 SingSong 的新系統採用了深度 學習模式 生成比現有系統與歌唱更加同步的音樂。
研究人員表示,該系統可用於為專業歌手創作卡拉 OK 曲目,或幫助業餘歌手找到與他們的聲音相匹配的伴奏。
谷歌的研究人員找到了一種方法,可以使用人工智能來生成與歌唱兼容的音樂。 這個名為 SingSong 的新系統使用深度學習模型來生成比其他現有系統更與歌聲同步的伴奏。 研究人員表示,該系統可用於為專業歌手創作卡拉 OK 曲目,或幫助業餘歌手找到更適合他們聲音的伴奏。
唱歌 是谷歌開發的一個系統,可以創建器樂來伴奏輸入的人聲。 它可以為音樂家和非音樂家提供一種簡單的新方法來製作以他們自己的聲音為特色的音樂。 開發人員利用音樂源分離和音頻製作方面的最新進展來實現這一目標。 開發人員專門使用尖端的源分離方法從大量音樂錄音庫中構建對齊的聲樂和樂器源對。 然後,開發人員修改 音頻LM,一種用於無條件音頻製作的前沿方法,因此它可以在源分離(聲樂,樂器)對上進行訓練,用於條件“音頻到音頻”生成任務。
AI 研究人員研究了聲音輸入的不同特徵,與默認的 AudioLM 特徵相比,其中最好的特徵將孤立人聲的量化性能提高了 53%,以改進系統從源分離訓練數據(其中人聲包含人聲的偽影)的泛化器樂)到開發人員可能期望用戶提供的孤立人聲。 在與相同語音輸入的成對比較中,聽眾對 SingSong 製作的樂器表現出明顯的偏好,而不是來自強大檢索基線的樂器。
相比之下,新系統使用 深度學習模型 它已經在大型音樂數據集上進行了訓練。 這使得系統能夠生成與歌手的聲音和時間同步的伴奏。
在這項研究中,聽眾會收到兩個 10 秒的聲樂與樂器混搭,其中聲音(取自 MUSDB18 測試)相同,而樂器則不同且來自不同的來源(真實情況、 谷歌模型,或基線)。 該問題要求聽眾選擇他們認為樂器背景更適合人聲的兩種組合中的哪一種。
SingSong的新鮮事例
透過使用一系列深度神經網路和 生成模型,開發人員能夠為較長的片段製作無延遲的和聲伴奏。
前面的示例中使用了 MUSDB18 數據集的專業聲音。 我們也對 SingSong 支持並使任何人都能用自己的聲音創作音樂的能力很感興趣。 在這裡,我們使用來自 Vocadito 數據集的聲音樣本來檢查這一點,其中包括在消費電子產品上製作的業餘歌手的錄音。
該系統仍處於開發的早期階段。 雖然研究人員表示在將其投入商業使用之前還需要對其進行改進,但他們相信它有可能徹底改變卡拉 OK 行業並幫助業餘歌手找到適合他們的伴奏。
閱讀更多相關文章:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。