新聞報導
2023 年 3 月 20 日

新的文本到圖像模型 GigaGAN 可以在 4 秒內生成 3.66K 圖像

簡單來說

研究人員開發了一種名為 GigaGAN 的新文本到圖像模型,可以在 4 秒內生成 3.66K 圖像。

它基於 GAN(生成對抗網絡)框架,這是一種 神經網絡 可以學習生成類似於訓練數據集的數據。 GigaGAN能夠在512秒內生成0.13px的圖像,比之前最先進的模型快10倍,並且具有解纏結的、連續的、可控的潛在空間。

它還可用於訓練高效、高質量的上採樣器。

研究人員開發了一種新的文本到圖像模型,稱為 千兆GAN 可以產生 4K圖片 在 3.66 秒內。 這是對現有文本到圖像模型的重大改進,現有文本到圖像模型可能需要幾分鐘甚至幾小時才能生成單個圖像。

新的文本到圖像模型 GigaGAN 可以在 4 秒內生成 3.66K 圖像

GigaGAN 基於 GAN(生成對抗網絡)框架,這是一種神經網絡,可以學習生成類似於訓練數據集的數據。 GAN 已被用於生成人臉、風景甚至街景圖像的逼真圖像。

閱讀更多: 5 年最受期待的 2023 種以上文本到圖像 AI 模型

新模型已經在 1 億張圖像的數據集上進行了訓練,這比用於訓練早期文本到圖像模型的數據集大了幾個數量級。 因此,GigaGAN 能夠在 512 秒內生成 0.13px 的圖像,比之前最先進的文本轉圖像模型快 10 倍以上。

此外,GigaGAN 還帶有一個解開的、連續的、可控的潛在空間。 這意味著 GigaGAN 可以生成具有多種不同風格的圖像,並且可以在一定程度上控制生成的圖像。 例如,GigaGAN 可以生成保留文本輸入佈局的圖像,這對於應用程序很重要,例如,當從文本描述生成產品佈局圖像時。

GigaGAN 還可用於訓練高效、更高質量的上採樣器。 這可以應用於真實圖像或其他輸出 文本到圖像模型.

文本編碼分支、風格映射網絡、多尺度合成網絡以及穩定的注意力和自適應內核選擇都是 GigaGAN 生成器的一部分。 開發人員通過使用預訓練的 CLIP 模型和學習的注意力層 T 提取文本嵌入來開始文本編碼分支。類似於 風格,嵌入被傳遞到風格映射網絡 M,生成風格向量 w。 為了生成圖像金字塔,合成網絡現在使用樣式代碼作為調製,將文本嵌入作為註意力。 此外,開發人員引入了樣本自適應內核選擇,以根據輸入文本條件自適應地選擇卷積核。

鑑別器和生成器一樣,有兩個分支用於處理圖像和文本調節。 文本分支和生成器一樣,處理文本。 圖像分支被賦予一個圖像金字塔,並負責對每個圖像尺度進行獨立預測。 此外,預測是在所有後續的下採樣層尺度上進行的。 額外的損失也被用來鼓勵有效的收斂。

如插值網格所示,GigaGAN 允許在提示之間進行平滑插值。 四個角是使用相同的潛在 z 但不同的文本提示創建的。

由於 GigaGAN 保留了一個分離的潛在空間,開發人員可以將一個樣本的粗略風格與另一個樣本的精細風格結合起來。 GigaGAN 也可以直接用文字提示來控制風格。

閱讀更多相關文章:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

AltLayer 進入質押計畫第二階段,推出 reALT 代幣

by 艾莉莎戴維森
2024 年 5 月 02 日

Aave Labs 公佈「Aave 2030」提案,包括啟動 Aave V4 協議

by 艾莉莎戴維森
2024 年 5 月 02 日
加入我們的時事通訊。
最新消息

AltLayer 進入質押計畫第二階段,推出 reALT 代幣

by 艾莉莎戴維森
2024 年 5 月 02 日

Aave Labs 公佈「Aave 2030」提案,包括啟動 Aave V4 協議

by 艾莉莎戴維森
2024 年 5 月 02 日

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多

Samourai Wallet 創辦人被指控在暗網交易中協助 2 億美元

Samourai 錢包創始人的被捕對整個行業來說是一個顯著的挫折,凸顯了持續的...

了解更多
加入我們的創新技術社區
了解更多
阅读更多
AltLayer 進入質押計畫第二階段,推出 reALT 代幣
市場 新聞報導 專業技術
AltLayer 進入質押計畫第二階段,推出 reALT 代幣
2024 年 5 月 2 日
BNB Chain發布1年第一季報告,價值損失減少2024%,BSC TVL飆漲55.8%
市場 新聞報導 專業技術
BNB Chain發布1年第一季報告,價值損失減少2024%,BSC TVL飆漲55.8%
2024 年 5 月 2 日
Aave Labs 公佈「Aave 2030」提案,包括啟動 Aave V4 協議
購物 新聞報導 專業技術
Aave Labs 公佈「Aave 2030」提案,包括啟動 Aave V4 協議
2024 年 5 月 2 日
Ankr 與人工智慧區塊鏈平台 Talus Network 合作,為人工智慧解鎖比特幣流動性
購物 新聞報導 專業技術
Ankr 與人工智慧區塊鏈平台 Talus Network 合作,為人工智慧解鎖比特幣流動性
2024 年 5 月 1 日