ニュースレポート テクノロジー
2023 年 1 月 24 日

GLIGEN: バウンディング ボックスを使用した新しい凍結されたテキストから画像への生成モデル

簡単に言えば

GLIGEN (Grounded-Language-to-Image Generation) は、現在の事前トレーニング済み拡散モデルの機能を拡張する新しい手法です。

キャプションとバウンディング ボックスの条件入力を使用して、GLIGEN モデルはオープン ワールドに接地された text2img を生成します。

GLIGEN は、事前トレーニング済みの text2img モデルからの知識を活用して、特定の場所やスタイルでさまざまなオブジェクトを生成できます。

GLIGEN は、テキストから画像への生成中に人間のキーポイントを接地することもあります。

大規模なテキストから画像への拡散モデルは長い道のりを歩んできました。 ただし、現在の慣行はテキスト入力のみに依存しているため、制御性が制限される可能性があります。 グリゲン、または Grounded-Language-to-Image Generation は、グラウンディング入力で条件付けできるようにすることで、現在の事前トレーニング済みのテキストから画像への拡散モデルの機能を構築および拡張する新しい手法です。

GLIGEN: バウンディング ボックスを使用した新しい凍結されたテキストから画像への生成モデル

事前トレーニング済みモデルの広範な概念知識を維持するために、開発者はすべての重みを凍結し、制御されたプロセスを介して新しいトレーニング可能なレイヤーにグラウンディング情報を送り込みます。 キャプションとバウンディング ボックスの条件入力により、GLIGEN モデルはオープン ワールドの接地されたテキストから画像への変換を生成し、接地機能は新しい空間構成と概念に効果的に一般化されます。

チェックアウトします デモ ページ をご覧ください

GLIGEN は既存の事前トレーニング済みの拡散モデルに基づいており、その元の重みは凍結されており、大量の事前トレーニング済みの知識を保持しています。
  • GLIGEN は、既存の事前トレーニング済みの 拡散モデル、元の重みは凍結されており、事前に訓練された大量の知識を保持しています。
  • 各トランスブロックで、追加の接地入力を吸収するために、新しいトレーニング可能な Gated Self-Attention レイヤーが作成されます。
  • 各グラウンディング トークンには XNUMX 種類の情報があります。グラウンディングされたものに関するセマンティック情報 (エンコードされたテキストまたは画像) と空間位置情報 (エンコードされたバウンディング ボックスまたはキー ポイント) です。
関連記事: VToonify: 芸術的なポートレート ビデオを生成するためのリアルタイム AI モデル
新しく追加された変調レイヤーは、大規模なグラウンディング データ (画像テキスト ボックス) で継続的に事前トレーニングされます。これは、フルモデルの微調整など、事前トレーニングされた拡散モデルを使用する代替方法よりも費用対効果が高くなります。 レゴと同様に、さまざまなトレーニング済みレイヤーをプラグインおよびプラグアウトして、さまざまな新しい機能を可能にすることができます。
新しく追加された変調レイヤーは、大規模なグラウンディング データ (画像テキスト ボックス) で継続的に事前トレーニングされます。 これは、事前トレーニングされたツールを使用する別の方法よりもコスト効率が高くなります。 拡散モデル、フルモデルの微調整など。 レゴと同様に、さまざまなトレーニング済みレイヤーを接続したり取り外したりして、さまざまな新機能を使用できるようになります。
GLIGEN は、推論のための拡散プロセスでスケジュールされたサンプリングをサポートします。この場合、モデルはグラウンディング トークンを使用するか (新しいレイヤーを追加することにより)、または事前に適切な元の拡散モデルを使用するか (新しいレイヤーを除外することにより) を動的に選択でき、生成品質のバランスを取ることができます。そしてグラウンディング能力。
GLIGEN は、推論のための拡散プロセスでスケジュールされたサンプリングをサポートします。この場合、モデルはグラウンディング トークンを使用するか (新しいレイヤーを追加することにより)、または事前に適切な元の拡散モデルを使用するか (新しいレイヤーを除外することにより) を動的に選択でき、生成品質のバランスを取ることができます。そしてグラウンディング能力。
GLIGEN は、事前トレーニング済みの text2img モデルからの知識を活用して、特定の場所やスタイルでさまざまなオブジェクトを生成できます。
GLIGEN は、事前トレーニング済みの text2img モデルからの知識を活用して、特定の場所やスタイルでさまざまなオブジェクトを生成できます。
関連記事: 3枚の人物写真からXNUMXDアバターを構築できる拡散モデルをMicrosoftが公開
GLIGEN は参照画像を使用してトレーニングすることもできます。
GLIGEN は参照画像を使用してトレーニングすることもできます。 一番上の行は、記述された説明に加えて参照写真が、スタイルや形状などのより詳細な特徴を提供できることを示唆しています。 XNUMX 行目は、参照画像をスタイル画像としても利用できることを示しています。この場合、画像の隅または端に接地するだけで十分であることがわかります。
GLIGEN は、他の拡散モデルと同様に、グラウンディング イメージの修復を実行できます。これにより、提供されたバウンディング ボックスに厳密に一致するオブジェクトを生成できます。
GLIGEN は、他の拡散モデルと同様に、グラウンディング イメージの修復を実行できます。これにより、提供されたバウンディング ボックスに厳密に一致するオブジェクトを生成できます。
GLIGEN は、テキストから画像への生成中に人間のキーポイントを接地することもあります。
GLIGEN はまた、人間の重要なポイントを接地する可能性があります。 テキストから画像への生成.

AI について詳しく読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories

Injective が AltLayer と提携して inEVM にセキュリティを再構築

by アリサ・デビッドソン
2024 年 5 月 03 日
ニュースレターにご参加ください。
最新ニュース

Injective が AltLayer と提携して inEVM にセキュリティを再構築

by アリサ・デビッドソン
2024 年 5 月 03 日

ボラティリティの中でビットコインETFへの機関投資家の意欲が高まる

13Fの提出書類による開示では、著名な機関投資家がビットコインETFに手を出していることが明らかになり、...

詳細を知りたい

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
Injective が AltLayer と提携して inEVM にセキュリティを再構築
ビジネス ニュースレポート テクノロジー
Injective が AltLayer と提携して inEVM にセキュリティを再構築
2024 年 5 月 3 日
MASA が窓口と提携して MASA 貸付プールを導入し、基地内での USDC 借入を可能にします
マーケット ニュースレポート テクノロジー
MASA が窓口と提携して MASA 貸付プールを導入し、基地内での USDC 借入を可能にします
2024 年 5 月 3 日
ベロドロームは今後数週間以内にスーパーチェーンのベータ版をリリースし、OPスタックレイヤー2ブロックチェーン全体に拡張します
マーケット ニュースレポート テクノロジー
ベロドロームは今後数週間以内にスーパーチェーンのベータ版をリリースし、OPスタックレイヤー2ブロックチェーン全体に拡張します
2024 年 5 月 3 日
CARV、データレイヤーを分散化して報酬を分配するためのAethirとの提携を発表
ビジネス ニュースレポート テクノロジー
CARV、データレイヤーを分散化して報酬を分配するためのAethirとの提携を発表
2024 年 5 月 3 日
CRYPTOMERIA LABS PTE。 株式会社。