新しいテキストから画像へのモデル GigaGAN は 4 秒で 3.66K 画像を生成できます
簡単に言えば
研究者は、4 秒で 3.66K 画像を生成できる GigaGAN と呼ばれる新しいテキストから画像へのモデルを開発しました。
これは、GAN (敵対的生成ネットワーク) フレームワークに基づいています。 ニューラルネットワーク トレーニング データセットと同様のデータを生成する方法を学習できます。 GigaGAN は 512 ピクセルの画像を 0.13 秒で生成でき、以前の最先端モデルよりも 10 倍速く、もつれが解け、連続的で制御可能な潜在空間を備えています。
また、効率的で高品質なアップサンプラーのトレーニングにも使用できます。
研究者は、テキストから画像への新しいモデルを開発しました。 ギガガン 生成できる 4K画像 3.66秒で。 これは、XNUMX つの画像を生成するのに数分から数時間もかかる既存のテキストから画像へのモデルに比べて大幅な改善です。
GigaGAN は、トレーニング データセットに似たデータを生成することを学習できるニューラル ネットワークの一種である GAN (敵対的生成ネットワーク) フレームワークに基づいています。 GAN は、顔、風景、さらにはストリートビュー画像のリアルな画像を生成するために使用されてきました。
新しいモデルは、以前のテキストから画像へのモデルのトレーニングに使用されたデータセットよりも桁違いに大きい 1 億の画像のデータセットでトレーニングされています。 その結果、GigaGAN は 512 秒で 0.13 ピクセルの画像を生成できます。これは、これまでの最先端のテキストから画像へのモデルよりも 10 倍以上高速です。
さらに、GigaGAN には、絡み合っていない連続した制御可能な潜在空間が付属しています。 これは、GigaGAN がさまざまなスタイルの画像を生成できること、および生成された画像をある程度制御できることを意味します。 たとえば、GigaGAN は、テキスト入力のレイアウトを保持する画像を生成できます。これは、たとえば、テキストの説明から製品レイアウトの画像を生成する場合など、アプリケーションにとって重要です。
GigaGAN は、効率的で高品質なアップサンプラーのトレーニングにも使用できます。 これは実際の画像や他の画像の出力に適用できます。 テキストから画像へのモデル.
テキスト エンコーディング ブランチ、スタイル マッピング ネットワーク、マルチスケール合成ネットワーク、および安定した注意と適応カーネル選択はすべて、GigaGAN ジェネレーターの一部です。 開発者は、事前トレーニング済みの CLIP モデルと学習済みアテンション レイヤー T を使用してテキスト埋め込みを抽出することから、テキスト エンコーディング ブランチを開始します。 スタイルGAN、埋め込みはスタイル マッピング ネットワーク M に渡され、スタイル ベクトル w が生成されます。 画像ピラミッドを生成するために、合成ネットワークはスタイル コードを変調として使用し、テキストの埋め込みを注意として使用するようになりました。 さらに、開発者はサンプル適応カーネル選択を導入して、入力テキストの条件付けに基づいて畳み込みカーネルを適応的に選択します。
ジェネレーターと同様に、ディスクリミネーターには、画像とテキストの条件付けを処理するための XNUMX つのブランチがあります。 テキスト ブランチは、ジェネレーターと同様に、テキストを処理します。 画像ブランチには画像ピラミッドが与えられ、画像スケールごとに独立した予測を行う役割を担っています。 さらに、後続のすべてのダウンサンプリング レイヤー スケールで予測が行われます。 効果的な収束を促進するために、追加の損失も使用されます。
補間グリッドに示されているように、GigaGAN ではプロンプト間のスムーズな補間が可能です。 XNUMX つのコーナーは、同じ潜在的な z を使用して作成されますが、テキスト プロンプトは異なります。
GigaGAN は絡み合っていない潜在空間を保持するため、開発者はあるサンプルの粗いスタイルを別のサンプルの細かいスタイルと組み合わせることができます。 GigaGAN は、テキスト プロンプトでスタイルを直接制御することもできます。
関連記事をもっと読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。