新聞報導 專業技術
2023 年 1 月 24 日

GLIGEN:新的帶邊界框的凍結文本到圖像生成模型

簡單來說

GLIGEN,即基於語言到圖像的生成,是一種建立在當前預訓練擴散模型的基礎上並擴展其功能的新技術。

通過標題和邊界框條件輸入,GLIGEN 模型生成基於開放世界的 text2img。

GLIGEN 可以利用來自預訓練 text2img 模型的知識,在特定位置和样式中生成各種對象。

GLIGEN 還可以在生成文本到圖像時確定人類關鍵點。

大規模的文本到圖像擴散模型已經取得了長足的進步。 然而,目前的做法是完全依賴文本輸入,這會限制可控性。 格列根,或接地語言到圖像生成,是一種新技術,它通過允許它們以接地輸入為條件,建立並擴展當前預訓練的文本到圖像擴散模型的能力。

GLIGEN:新的帶邊界框的凍結文本到圖像生成模型

為了保持預訓練模型的廣泛概念知識,開發人員凍結了它的所有權重,並通過受控過程將基礎信息泵入新的可訓練層。 通過標題和邊界框條件輸入,GLIGEN 模型生成開放世界的接地文本到圖像,並且接地能力有效地泛化到新穎的空間配置和概念。

退房 演示 並點選這裡。

GLIGEN 基於現有的預訓練擴散模型,其原始權重已被凍結以保留大量預訓練知識。
  • GLIGEN 基於現有的預訓練 擴散模型,其原始權重已被凍結以保留大量預訓練知識。
  • 在每個變壓器塊上,都會創建一個新的可訓練門控自註意層來吸收額外的接地輸入。
  • 每個 grounding token 都有兩類信息:關於 grounded 事物的語義信息(編碼的文本或圖像)和空間位置信息(編碼的邊界框或關鍵點)。
相關文章: VToonify:用於生成藝術人像視頻的實時 AI 模型
新添加的調製層在大量基礎數據(圖像文本框)上不斷進行預訓練,這比使用預訓練擴散模型的替代方法(例如全模型微調)更具成本效益。 與樂高積木類似,可以插入和拔出不同的訓練層以實現各種新功能。
新加入的調變層在大量接地資料(影像文字方塊)上不斷進行預訓練。 這比使用預訓練的替代方法更具成本效益 擴散模型,例如全模型微調。 與樂高類似,不同的訓練層可以插入和拔出,以實現各種新功能。
GLIGEN支持推理擴散過程中的預定採樣,模型可以動態選擇使用grounding tokens(通過添加新層)或具有良好先驗的原始擴散模型(通過踢出新層),從而平衡生成質量和接地能力。
GLIGEN支持推理擴散過程中的預定採樣,模型可以動態選擇使用grounding tokens(通過添加新層)或具有良好先驗的原始擴散模型(通過踢出新層),從而平衡生成質量和接地能力。
GLIGEN 可以利用來自預訓練 text2img 模型的知識,在特定位置和样式中生成各種對象。
GLIGEN 可以利用來自預訓練 text2img 模型的知識,在特定位置和样式中生成各種對象。
相關文章: 微軟發布了一個擴散模型,可以從一個人的單張照片中構建一個 3D 頭像
GLIGEN 也可以使用參考圖片進行訓練。
GLIGEN 也可以使用參考圖片進行訓練。 第一行表明,除了書面描述之外,參考照片還可以提供更細粒度的特徵,例如汽車的風格和造型。 第二行表明參考圖像也可以用作樣式圖像,在這種情況下,我們發現將其置於圖像的角落或邊緣就足夠了。
GLIGEN 與其他擴散模型一樣,可以執行基礎圖像修復,這可以生成與提供的邊界框緊密匹配的對象。
GLIGEN 與其他擴散模型一樣,可以執行基礎圖像修復,這可以生成與提供的邊界框緊密匹配的對象。
GLIGEN 還可以在生成文本到圖像時確定人類關鍵點。
GLIGEN 還可以接地人類關鍵點,同時 生成文本到圖像.

閱讀有關人工智能的更多信息:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性

by 艾莉莎戴維森
2024 年 5 月 03 日

Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸

by 艾莉莎戴維森
2024 年 5 月 03 日

CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵

by 艾莉莎戴維森
2024 年 5 月 03 日
加入我們的時事通訊。
最新消息

Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性

by 艾莉莎戴維森
2024 年 5 月 03 日

Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸

by 艾莉莎戴維森
2024 年 5 月 03 日

CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵

by 艾莉莎戴維森
2024 年 5 月 03 日

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多
加入我們的創新技術社區
了解更多
阅读更多
Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性
購物 新聞報導 專業技術
Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性
2024 年 5 月 3 日
Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸
市場 新聞報導 專業技術
Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸
2024 年 5 月 3 日
Velodrome 將在未來幾週內推出 Superchain Beta 版本,並在 OP 堆疊第 2 層區塊鏈上進行擴展
市場 新聞報導 專業技術
Velodrome 將在未來幾週內推出 Superchain Beta 版本,並在 OP 堆疊第 2 層區塊鏈上進行擴展
2024 年 5 月 3 日
CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵
購物 新聞報導 專業技術
CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵
2024 年 5 月 3 日