ニュースレポート
2023 年 3 月 20 日

新しいテキストから画像へのモデル GigaGAN は 4 秒で 3.66K 画像を生成できます

簡単に言えば

研究者は、4 秒で 3.66K 画像を生成できる GigaGAN と呼ばれる新しいテキストから画像へのモデルを開発しました。

これは、GAN (敵対的生成ネットワーク) フレームワークに基づいています。 ニューラルネットワーク トレーニング データセットと同様のデータを生成する方法を学習できます。 GigaGAN は 512 ピクセルの画像を 0.13 秒で生成でき、以前の最先端モデルよりも 10 倍速く、もつれが解け、連続的で制御可能な潜在空間を備えています。

また、効率的で高品質なアップサンプラーのトレーニングにも使用できます。

研究者は、テキストから画像への新しいモデルを開発しました。 ギガガン 生成できる 4K画像 3.66秒で。 これは、XNUMX つの画像を生成するのに数分から数時間もかかる既存のテキストから画像へのモデルに比べて大幅な改善です。

テキストから画像への新しいモデル GigaGAN は 4 秒で 3.66K 画像を生成できます

GigaGAN は、トレーニング データセットに似たデータを生成することを学習できるニューラル ネットワークの一種である GAN (敵対的生成ネットワーク) フレームワークに基づいています。 GAN は、顔、風景、さらにはストリートビュー画像のリアルな画像を生成するために使用されてきました。

続きを読む: 5 年に最も期待される 2023 つ以上の Text-to-Image AI モデル

新しいモデルは、以前のテキストから画像へのモデルのトレーニングに使用されたデータセットよりも桁違いに大きい 1 億の画像のデータセットでトレーニングされています。 その結果、GigaGAN は 512 秒で 0.13 ピクセルの画像を生成できます。これは、これまでの最先端のテキストから画像へのモデルよりも 10 倍以上高速です。

さらに、GigaGAN には、絡み合っていない連続した制御可能な潜在空間が付属しています。 これは、GigaGAN がさまざまなスタイルの画像を生成できること、および生成された画像をある程度制御できることを意味します。 たとえば、GigaGAN は、テキスト入力のレイアウトを保持する画像を生成できます。これは、たとえば、テキストの説明から製品レイアウトの画像を生成する場合など、アプリケーションにとって重要です。

GigaGAN は、効率的で高品質なアップサンプラーのトレーニングにも使用できます。 これは実際の画像や他の画像の出力に適用できます。 テキストから画像へのモデル.

テキスト エンコーディング ブランチ、スタイル マッピング ネットワーク、マルチスケール合成ネットワーク、および安定した注意と適応カーネル選択はすべて、GigaGAN ジェネレーターの一部です。 開発者は、事前トレーニング済みの CLIP モデルと学習済みアテンション レイヤー T を使用してテキスト埋め込みを抽出することから、テキスト エンコーディング ブランチを開始します。 スタイルGAN、埋め込みはスタイル マッピング ネットワーク M に渡され、スタイル ベクトル w が生成されます。 画像ピラミッドを生成するために、合成ネットワークはスタイル コードを変調として使用し、テキストの埋め込みを注意として使用するようになりました。 さらに、開発者はサンプル適応カーネル選択を導入して、入力テキストの条件付けに基づいて畳み込みカーネルを適応的に選択します。

ジェネレーターと同様に、ディスクリミネーターには、画像とテキストの条件付けを処理するための XNUMX つのブランチがあります。 テキスト ブランチは、ジェネレーターと同様に、テキストを処理します。 画像ブランチには画像ピラミッドが与えられ、画像スケールごとに独立した予測を行う役割を担っています。 さらに、後続のすべてのダウンサンプリング レイヤー スケールで予測が行われます。 効果的な収束を促進するために、追加の損失も使用されます。

補間グリッドに示されているように、GigaGAN ではプロンプト間のスムーズな補間が可能です。 XNUMX つのコーナーは、同じ潜在的な z を使用して作成されますが、テキスト プロンプトは異なります。

GigaGAN は絡み合っていない潜在空間を保持するため、開発者はあるサンプルの粗いスタイルを別のサンプルの細かいスタイルと組み合わせることができます。 GigaGAN は、テキスト プロンプトでスタイルを直接制御することもできます。

関連記事をもっと読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories
ニュースレターにご参加ください。
最新ニュース

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい

Samourai Wallet創設者、ダークネット取引で2億ドルを仲介したとして告発

Samourai Wallet 創設者の懸念は業界にとって顕著な後退を表しており、永続的な問題を浮き彫りにしています。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
AltLayer がステーキング イニシアチブの第 2 フェーズに入り、reALT トークンを導入
マーケット ニュースレポート テクノロジー
AltLayer がステーキング イニシアチブの第 2 フェーズに入り、reALT トークンを導入
2024 年 5 月 2 日
BNBチェーンが1年第2024四半期レポートを発表、価値損失が55.8%削減され、BSC TVLが70.8%急騰していることを強調
マーケット ニュースレポート テクノロジー
BNBチェーンが1年第2024四半期レポートを発表、価値損失が55.8%削減され、BSC TVLが70.8%急騰していることを強調
2024 年 5 月 2 日
Aave LabsがAave V2030プロトコルの立ち上げを含む「Aave 4」提案を発表
ビジネス ニュースレポート テクノロジー
Aave LabsがAave V2030プロトコルの立ち上げを含む「Aave 4」提案を発表
2024 年 5 月 2 日
Ankr、AIブロックチェーンプラットフォームTalus Networkと連携し、AI向けビットコインの流動性を解放
ビジネス ニュースレポート テクノロジー
Ankr、AIブロックチェーンプラットフォームTalus Networkと連携し、AI向けビットコインの流動性を解放
2024 年 5 月 1 日
CRYPTOMERIA LABS PTE。 株式会社。