Nvidia 宣布 eDiff-I:用於文本和圖像合成的新型生成 AI,具有即時樣式轉換
簡單來說
Nvidia 推出 eDiff-I 以幫助企業創建高質量、引人入勝的圖像
eDiff-I 技術通常會產生比 DALL-E2 更高的合成質量,並且 Stable diffusion
eDiff-I 是一種新的 AI 內容創建工具, 提供 營銷人員和企業前所未有的文本到圖像合成功能,正如最近宣布的那樣 Nvidia公司. 借助 eDiff-I,企業可以快速輕鬆地創建高質量、引人入勝的視覺效果,而無需昂貴的設備或專業幫助。 eDiff-I 使用自然語言處理 (NLP) 來解釋用戶的輸入並生成相應的圖像。 然後人工智能分析圖像並根據上下文選擇最合適的圖像。 結果是高質量、具有專業外觀的圖像可用於多種用途,例如營銷材料、社交媒體帖子、電子郵件活動等。
eDiff-I 是一個 下一代生成人工智能 提供前所未有的內容創建工具 文字轉圖片 合成、快速的風格轉換和直觀的文字繪畫。 作為從文本創建視覺效果的擴散模型,eDiff-I 建議訓練一組專家去噪網絡,每個專門針對特定的噪聲間隔,以響應擴散模型的行為在採樣的不同階段發生變化的經驗發現。
T5 文本嵌入、CLIP 圖像嵌入和 CLIP 文本嵌入為 eDiff-I 概念提供了基礎。 這種方法可以生成逼真的圖形以響應任何文本查詢。
除了文本到圖像的合成之外,它還提供了兩個額外的功能:(1) 風格轉換,它允許我們使用參考風格圖像來控制生成樣本的風格,以及 (2) “Paint with Words”,一種工具允許用戶通過在畫布上繪製分割圖來創建圖像。
這個管道由三個擴散模型的級聯組成:一個基本模型可以創建分辨率為 64×64 的樣本,兩個超分辨率堆疊可以逐漸將圖片分別上採樣到分辨率 256×256 和 1024×1024。 模型在收到標題作為輸入後計算 T5 XXL 和文字嵌入。 這些圖片嵌入可以用作風格向量。 然後,將這些嵌入輸入到我們的級聯中 擴散模型,逐漸產生解析度為 1024 x 1024 的影像。
與開源文本到圖像算法(Stable diffusion) 和 (DALL-E2)。
當使用 CLIP 圖像嵌入時,eDiff-I 方法有助於風格轉移。 eDiff-I 首先提取 CLIP 來自參考風格圖像的圖像嵌入,可用作風格參考向量。 在下圖的左側面板中可以看到風格參考。 打開樣式調節時的結果顯示在中央面板中。 關閉樣式調節時的結果顯示在右側的面板中。 當應用風格調節時,eDiff-I 模型創建的輸出也符合輸入字幕的風格。 關閉風格調節後,會生成看起來自然的照片。
通過選擇短語並將其塗在圖像上,eDiff-I 方法的用戶可以更改文本提示中列出的內容的位置。 之後,該模型使用 提示和創建圖像的地圖 與標題和輸入地圖兼容。
閱讀相關文章:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。