Stability AI“ Stable Diffusion 2 算法終於公開:新的 depth2img 模型、超分辨率升級器、無成人內容
簡單來說
Stable Diffusion 2.0 模型比以前的模型更快、開源、可擴展、更強大
Stable Diffusion 為 GPU 做好準備,提供實時渲染的新功能
深度引導 stable diffusion 模型 – 圖像到圖像的創意應用新想法
Stability AI 有 發布 其博客上有一篇關於 Stable Diffusion 2.其中, Stability AI 提出了一種比以前的算法更高效、更穩健的新算法,同時將其與其他最先進的方法進行基準測試。
CompVis 的原創 Stable Diffusion V1模型 革命性 開源的本質 AI模型 並在世界各地生產了數百種不同的模型和進步。 它是最快達到 10,000 個 Github 星數的項目之一,在不到兩個月的時間里達到了 33,000 個,比 Github 上的更多程序都快。
原 Stable Diffusion V1 版本由充滿活力的 Robin Rombach 團隊領導(Stability AI)和來自慕尼黑大學 CompVis 小組的 Patrick Esser(Runway ML),由 Björn Ommer 教授領導。 他們以實驗室之前的 Latent 工作為基礎 擴散模型 並得到了 LAION 和 Eleuther AI 的重要支持。
是什麼使得 Stable Diffusion v1 不同於 Stable Diffusion v2?
Stable Diffusion 2.0 包括許多比以前版本重要的增強功能和功能,讓我們來看看它們。
Stable Diffusion 2.0 版本具有強大的文本到圖像模型,並使用 LAION 開發的全新文本編碼器 (OpenCLIP) 進行訓練 Stability AI,這顯著提高了質量 生成的圖像 超過以前的 V1 版本。 此版本的文本轉圖像模型可以輸出默認分辨率為 512×512 像素和 768×768 像素的圖像。
這些模型使用 LAION-5B 數據集的美學子集進行訓練,該數據集由 Stability AI的 DeepFloyd 團隊,然後使用 LAION 的 NSFW 過濾器進行過濾以排除成人內容。
使用 50 個 DDIM 樣本步驟、50 個無分類器指導量表以及 1.5、2.0、3.0、4.0、5.0、6.0、7.0 和 8.0 的評估表明檢查點的相對改進:
Stable Diffusion 2.0 現在採用了 Upscaler Diffusion 模型,可將圖像分辨率提高四倍。 我們的模型的一個例子 倍增 將低質量生成的圖像(128×128)轉換為更高分辨率的圖像(512×512)如下所示。 Stable Diffusion 2.0 與我們的文本到圖像模型結合使用時,現在可以生成分辨率為 2048×2048 或更高的圖像。
新的深度引導 stable diffusion 模型,depth2img,以全新的創意可能性擴展了 V1 中先前的圖像到圖像功能。 Depth2img 確定輸入圖像的深度(使用現有模型),然後生成新的 圖片 基於文本和深度信息。 Depth-to-Image 可以提供大量新的創意應用程序,提供看起來與原始圖像明顯不同的變化,同時保持圖像的連貫性和深度。
有什麼新內容 Stable Diffusion 2?
- 新的 stable diffusion 模型 提供 768×768 分辨率。
- U-Net 具有與 1.5 版相同數量的參數,但它是從頭開始訓練的,並使用 OpenCLIP-ViT/H 作為其文本編碼器。 所謂的 v 預測模型是 SD 2.0-v。
- 上述模型是從 SD 2.0-base 調整而來的,SD 512-base 也是可用的,並在 512×XNUMX 圖像上作為典型的噪聲預測模型進行訓練。
- 添加了具有 x4 縮放比例的潛在文本引導擴散模型。
- 精緻SD 2.0基礎深度引導 stable diffusion 模型。 此模型可用於結構保留 img2img 和形狀條件合成,並以 MiDaS 推導的單目深度估計為條件。
- 在 SD 2.0 基礎上構建的改進的文本引導修復模型。
開發者們辛苦了,就像最初的迭代一樣 Stable Diffusion,優化模型以在單個 GPU 上運行 - 他們希望從一開始就讓盡可能多的人可以使用它。 他們已經看到了當數百萬人掌握這些模型並合作構建絕對非凡的事物時會發生什麼。 這就是開源的力量:利用數以百萬計的人才的巨大潛力,他們可能沒有資源來訓練尖端模型,但有能力用一個模型做出令人難以置信的事情。
這個新的更新結合了強大的新功能,如 depth2img 和更好的分辨率升級功能,將作為大量新應用程序的基礎,並激發新的創造潛力。
閱讀更多關於 Stable Diffusion:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。