GLIGEN: バウンディング ボックスを使用した新しい凍結されたテキストから画像への生成モデル
簡単に言えば
GLIGEN (Grounded-Language-to-Image Generation) は、現在の事前トレーニング済み拡散モデルの機能を拡張する新しい手法です。
キャプションとバウンディング ボックスの条件入力を使用して、GLIGEN モデルはオープン ワールドに接地された text2img を生成します。
GLIGEN は、事前トレーニング済みの text2img モデルからの知識を活用して、特定の場所やスタイルでさまざまなオブジェクトを生成できます。
GLIGEN は、テキストから画像への生成中に人間のキーポイントを接地することもあります。
大規模なテキストから画像への拡散モデルは長い道のりを歩んできました。 ただし、現在の慣行はテキスト入力のみに依存しているため、制御性が制限される可能性があります。 グリゲン、または Grounded-Language-to-Image Generation は、グラウンディング入力で条件付けできるようにすることで、現在の事前トレーニング済みのテキストから画像への拡散モデルの機能を構築および拡張する新しい手法です。
事前トレーニング済みモデルの広範な概念知識を維持するために、開発者はすべての重みを凍結し、制御されたプロセスを介して新しいトレーニング可能なレイヤーにグラウンディング情報を送り込みます。 キャプションとバウンディング ボックスの条件入力により、GLIGEN モデルはオープン ワールドの接地されたテキストから画像への変換を生成し、接地機能は新しい空間構成と概念に効果的に一般化されます。
チェックアウトします デモ ページ をご覧ください
- GLIGEN は、既存の事前トレーニング済みの 拡散モデル、元の重みは凍結されており、事前に訓練された大量の知識を保持しています。
- 各トランスブロックで、追加の接地入力を吸収するために、新しいトレーニング可能な Gated Self-Attention レイヤーが作成されます。
- 各グラウンディング トークンには XNUMX 種類の情報があります。グラウンディングされたものに関するセマンティック情報 (エンコードされたテキストまたは画像) と空間位置情報 (エンコードされたバウンディング ボックスまたはキー ポイント) です。
AI について詳しく読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。