VToonify:用於生成藝術人像視頻的實時 AI 模型
簡單來說
開發人員開發了一個革命性的 VToonify 框架,以提供受控的高分辨率肖像視頻風格轉換。
為了製作令人驚嘆的藝術肖像,該框架使用了 StyleGAN 的中高分辨率層。
它允許擴展現有的基於 StyleGAN 的 圖像卡通化模型 到視頻。
南洋理工大學的研究人員已經 引入了一個新穎的 VToonify 框架 生成可控的高分辨率人像視頻風格遷移。 VToonify 利用 StyleGAN 的中高分辨率層,根據編碼器提取的多尺度內容特徵來渲染高質量的藝術肖像,以更好地保留幀細節。 實驗結果表明,我們的框架可以生成具有始終如一的高質量和所需面部表情的視頻,而無需面部對齊或幀大小限制。
因此,接受各種尺寸視頻中未對齊面孔的全卷積架構會生成具有有機運動的完整面孔。 VToonify 框架繼承了這些模型的吸引人的特性,可以對顏色和強度進行靈活的樣式控制。 它與現有的基於 StyleGAN 的圖像卡通化模型兼容,可將其擴展到視頻卡通化。 這項工作介紹了 VToonify 的兩個實例,分別基於 Toonify 和 DualStyleGAN,用於基於集合和基於樣本的肖像視頻風格轉換。
廣泛的實驗結果表明,所提出的 VToonify 框架在製作具有可調節風格控制的藝術肖像電影方面優於競爭方法,這些電影具有出色的質量和時間上的一致性。 查看 GitHub上 閲讀更多的細節。
相關文章: OpenAI 正在致力於創建視頻人工智能模型 |
為了提供可控的高分辨率人像視頻風格轉換,VToonify 結合了圖像翻譯框架和基於 StyleGAN 的框架的優點。
(A) 為了支持可變輸入大小,圖像翻譯系統使用全卷積網絡。 然而,在從頭開始教學時,傳授高分辨率和受控風格是一項挑戰。
(B) 基於 StyleGAN 的框架,僅支持固定圖片尺寸和細節損失,使用預訓練的 StyleGAN 模型進行高分辨率和可控的風格遷移。
(C) 為了創建一個類似於圖像翻譯框架的完全卷積編碼器-生成器架構,我們的混合系統通過刪除其固定大小的輸入特徵和低分辨率層來擴展 StyleGAN。
為了保留幀細節,開發人員訓練編碼器從輸入幀中提取多尺度內容特徵作為附加內容條件。 VToonify 繼承了 StyleGAN 模型的樣式控制靈活性,將其放入生成器中以提取其數據和模型。
VToonify 框架繼承了當前基於 StyleGAN 的圖像 Toonification 模型靈活風格控制的吸引人的特性,並與之兼容,將其擴展為 視頻 卡通化。 我們的 VToonify 使用 DualStyleGAN 模型作為 StyleGAN 基礎提供以下功能:
- 從基於範例的結構轉移風格;
- 風格度修飾;
- 基於範例的顏色風格遷移。
閱讀有關人工智能的更多信息:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。