ERNIE-ViLG 2.0:百度的新文本到圖像模型優於 Dalle-2 和 Stable Diffusion
簡單來說
Dalle-2 和 Stable Diffusion 明顯優於 ERNIE-ViLG 2.0
厄尼-維爾格 2.0 是一種文本到圖像模型,提供比 Dalle-2 更好的性能 Stable Diffusion,目前最流行的兩種文本到圖像模型。 新模型由百度研究人員團隊設計和訓練,結果令人驚嘆。
結果表明 ERNIE-ViLG 2.0 顯著優於 Dalle-2 和 Stable Diffusion。 這是一項重大成就,展示了 ERNIE 框架的強大功能。 這 Metaverse Post 團隊將 ERNIE-ViLG 2.0 與 Stable Diffusion 如下:
這些結果有力地支持了 ERNIE-ViLG 2.0 是一種更有效的假設。 文本到圖像系統比 Dalle-2 和 Stable Diffusion.
Unet架構來自 Stable Diffusion 以此為基礎,但有一些變化:
- 去噪專家的組合: 有 10 個神經網絡而不是一個,每個神經網絡只負責某些擴散步驟。
- 課文知識: 自動重新加權查詢中的單詞,使關鍵字獲得更多權重。
- 視覺知識: 在訓練過程中,在中間生成結果上檢測到物體,並增加了帶有物體區域的損失函數的權重。
結果,世界上最大的 文本到圖像模型 出來了 24 億個參數(比 SD 大 10 倍)來訓練模型。
提示只是簡單地從中文自動翻譯成英文 擁抱臉 在被發送到 AI 之前的公開演示。 許多功能由此而來。
- 厄尼不認識國際公眾人物。 例如,ERNIE 不認識 Arnold Schwarzenegger。 它在中國當然有當地人的最愛。
- 因此,在提示中使用名人名字的方法可以極大地提高提示的質量。 面孔 將失敗。
- 您可能會因為中文翻譯而出現一些失真,所以如果您不會說中文,可能會有一些驚喜等著您。
- 它甚至對 Greg Rutkowski 一無所知。
閱讀相關文章:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。