GLIGEN:新的帶邊界框的凍結文本到圖像生成模型
簡單來說
GLIGEN,即基於語言到圖像的生成,是一種建立在當前預訓練擴散模型的基礎上並擴展其功能的新技術。
通過標題和邊界框條件輸入,GLIGEN 模型生成基於開放世界的 text2img。
GLIGEN 可以利用來自預訓練 text2img 模型的知識,在特定位置和样式中生成各種對象。
GLIGEN 還可以在生成文本到圖像時確定人類關鍵點。
大規模的文本到圖像擴散模型已經取得了長足的進步。 然而,目前的做法是完全依賴文本輸入,這會限制可控性。 格列根,或接地語言到圖像生成,是一種新技術,它通過允許它們以接地輸入為條件,建立並擴展當前預訓練的文本到圖像擴散模型的能力。
為了保持預訓練模型的廣泛概念知識,開發人員凍結了它的所有權重,並通過受控過程將基礎信息泵入新的可訓練層。 通過標題和邊界框條件輸入,GLIGEN 模型生成開放世界的接地文本到圖像,並且接地能力有效地泛化到新穎的空間配置和概念。
退房 演示 並點選這裡。
- GLIGEN 基於現有的預訓練 擴散模型,其原始權重已被凍結以保留大量預訓練知識。
- 在每個變壓器塊上,都會創建一個新的可訓練門控自註意層來吸收額外的接地輸入。
- 每個 grounding token 都有兩類信息:關於 grounded 事物的語義信息(編碼的文本或圖像)和空間位置信息(編碼的邊界框或關鍵點)。
閱讀有關人工智能的更多信息:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。