谷歌通過推出新的文本到視頻 AI 生成器 Imagen Video 來克服 Meta
簡單來說
谷歌的 Imagen Video 試圖幫助視頻生成器變成殺手級應用
沒過多久,Google 就對 Meta 的 Make-a-Video 做出了回應。 通過使用文本提示, 影像視頻 可能會製作精彩的視頻。 儘管存在許多缺點,但結果比現有技術有了巨大進步。
與 Facebook 的文本到視頻 AI 生成器相比 製作一段視頻,結果明顯更好。 然而,這一戰略也需要更多的監督。 與 Imagen Video 相比,Micro workers 努力用書面描述來註釋電影,Make-a-Scene 使用未標記的視頻進行訓練。
深入了解架構的細節是沒有意義的; 你應該在文章中閱讀它 点击這裡. 我們只能確認 T16 編碼器的文本嵌入首先以 5×48 的分辨率以每秒 24 幀的速度生成 3 幀,然後通過多個擴散模型將其放大為 128 幀的最終電影1280×768 和每秒 24 幀。
Imagen視頻是什麼?
Imagen Video 是一種基於一系列視訊擴散模型創建文字條件視訊的方法。 Imagen Video 製作高品質影片 文字提示 透過將基本影片製作模型與一系列交錯的空間和時間影片超解析度模型相結合。 回顧團隊在將系統擴展為高階系統時所做的設計選擇defi文本到視頻模型的定義,包括 v 參數化擴散模型的決策以及特定分辨率下全卷積時間和空間超分辨率模型的選擇。 此外,它還驗證了早期基於擴散的圖像生成工作的結果並將其應用到 視頻生成。 然後,在無分類器的指導下對視頻模型進行漸進式蒸餾,以實現快速、高質量的採樣。
谷歌研究團隊聲稱該系統接受文本描述並且 生成一個 16 幀的電影 每秒三幀,分辨率為 24 x 48 像素。 系統縮放並“預測”額外的幀,以每秒 128 幀和 24p 分辨率 (720×1280) 創建具有 768 幀的最終視頻。 有 60 萬個圖像文本對和 14 萬個視頻文本對用於訓練 Imagen Video。
圖像視頻樣本
即使僅僅因為使用 AI 製作視頻更快、更便宜,這些技術也無疑會被無處不在。
有興趣閱讀更多嗎? 以下是一些要檢查的其他主題:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。