Würstchen V2 型號贏得勝利 Stable Diffusion XL 具有令人印象深刻的生成高解析度影像的速度
最近的推文 作者發表的一篇題為“Würstchen”(德語“香腸”)的文章引起了愛好者和專家的關注。 該推文分享了使用新的 Würstchen V2 模型生成圖像的有趣結果。
Würstchen 快速且高效,產生影像的速度比其他模型更快 Stable Diffusion XL 同時使用更少的記憶體。 它還降低了訓練成本,Würstchen v1 在 9,000×512 解析度下僅需要 512 個 GPU 小時的訓練,而在 Stable Diffusion 1.4. 成本降低 16 倍不僅有利於研究人員進行新實驗,也為更多組織訓練此類模型打開了大門。 Würstchen v2 使用了 24,602 個 GPU 小時,比僅在 6×1.4 下訓練的 SD512 便宜 512 倍。
Würstchen V2 是 擴散模型 它在高度壓縮的圖像潛在空間中工作,將訓練和推理的計算成本降低了幾個數量級。 它採用新穎的設計,實現了 42 倍的空間壓縮,這是以前從未見過的壯舉。 Würstchen 採用兩層壓縮:A 級和 B 級,將壓縮影像解碼回像素空間。 第三個模型,階段 C,是在高度壓縮的潛在空間中學習的,需要用於當前性能最佳模型的計算的一部分,同時允許更便宜和更快的推理。
Würstchen V2 包含兩個擴散階段:
- A階段: 此階段涉及文字條件擴散,並擁有驚人的 1 億個參數。 這裡的加速是透過超高壓縮技術實現的。 值得注意的是,Würstchen V128 最初以 128x4x2 的解析度運行,而不是 SDXL 中所示的 24x24x16 隱藏程式碼大小。 這意味著更少的像素但更多的通道,從而顯著提高速度。
- B階段: 這是一個配備了600億個參數的擴散模型,負責將影像從24×24解壓縮到128×128的解析度。
完成該過程的是一個具有 20 萬個參數的解碼器,它將隱藏程式碼轉換為渲染圖像。
立即脫穎而出的實際優勢是 Würstchen V2 的非凡速度。 它的運行速度比 SDXL 快 2-2.5 倍,這是該領域的一項值得注意的進步 人工智能圖像生成.
與任何技術創新一樣,可能需要權衡取捨。 在影像品質方面,一些專家認為略有損失,但仍需進行全面、誠實的比較以提供具體證據。
生成的文字到圖像的範例如下:
閱讀更多相關主題:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。