ニュースレポート テクノロジー
2022 年 11 月 23 日

Sber AI は、2.0 以上の言語で生成するための最初のテキストから画像へのモデルである Kandinsky 100 を発表しました

簡単に言えば

最初の多言語拡散モデルである Kandinsky 2.0 は、Sber AI と SberDevices からの 1 億のテキストと画像のペアを組み合わせたデータセットを使用して、AI 人工知能研究所の研究者の支援を受けて、Sber AI 研究者によって作成およびトレーニングされました。

拡散は、多くのデジタル画像処理タスクで GAN と自己回帰モデルをますます置き換えています。 拡散は学習が容易であり、ハイパーパラメーターの複雑な選択、最小最大最適化を必要とせず、学習の不安定性に悩まされないため、これは驚くべきことではありません。 そして最も重要なことは、拡散モデルは、ほぼすべての生成タスク (テキストによる画像生成、音声生成、ビデオ、さらには) で最先端の結果を示していることです。 3D.

Sber AI は、2.0 以上の言語で生成するための最初のテキストから画像へのモデルである Kandinsky 100 を発表しました
Kandinsky AIが作成した画像

残念ながら、テキストを何かに変換する分野の作業のほとんどは、英語と中国語のみに焦点を当てています。 この不正を正すために、Sber AI 作成することにしました 2.0 を超える言語のクエリを理解する、多言語のテキストから画像への拡散モデル Kandinsky 100。 抱き合う顔 すでに Kandinsky 2.0 を提供しています。 SberAI と SberDevices の研究者は、 協力して このプロジェクトでは、AI 人工知能研究所の専門家と協力しています。

拡散とは?

2015年の記事では 非平衡熱力学を使用した深層教師なし学習、拡散モデルは、分布を均等にする拡散をもたらす物質を混合する行為として最初に説明されました。 記事のタイトルが示すように、彼らは熱力学の枠組みを通して拡散モデルの説明に取り組みました。

画像の場合、このようなプロセスは、たとえば画像からガウス ノイズを徐々に除去することに似ている場合があります。

紙の拡散モデル ビート 2021 年に公開された画像合成に関する GANs は、GANS に対する拡散モデルの優位性を初めて示しました。 著者らは、分類子ガイダンスと名付けた第 XNUMX 世代の制御アプローチ (条件付け) も考案しました。 このメソッドは、別の分類器 (犬など) からの勾配を使用して、目的のクラスに適合するオブジェクトを作成します。 正規化係数の予測を含む適応グループ ノルム メカニズムを通じて、制御自体が実行されます。

この記事は、ジェネレーティブ AI の分野における転換点と見なすことができ、多くの人が拡散の研究に目を向けるようになりました。 に関する新しい記事 テキストからビデオへ, テキストから 3D へ、画像 修復, オーディオ生成、拡散 超解像、そして数週間ごとに動きの生成さえも現れ始めました。

テキストから画像への拡散

前述したように、ノイズ リダクションとノイズ除去は通常、画像モダリティのコンテキストにおける拡散プロセスの主要コンポーネントであるため、UNet とその多くのバリエーションが基本的なアーキテクチャとして頻繁に使用されます。

テキストから画像への拡散
テキストから画像への拡散

このテキストに基づいて画像を作成するには、生成中に何らかの方法でこのテキストを考慮することが不可欠です。 の著者 OpenAI GLIDE モデルに関する記事では、テキストに対する分類子を使用しないガイダンス アプローチを変更することを提案しました。

凍結された事前照射テキストエンコーダーの採用と、将来のカスケード解像度向上メカニズムにより、テキスト生成が大幅に改善されました (画像)。 のテキスト部分をトレーニングする必要がないことが判明しました テキストから画像へのモデル 凍結した T5-xxl を使用すると、画質とテキストの理解が大幅に向上し、使用するトレーニング リソースがはるかに少なくなるためです。

の作者 潜在拡散 記事では、picture コンポーネントは実際にはトレーニングを必要としない (少なくとも完全ではない) ことを示しました。 強力な画像オートエンコーダー (VQ-VAE または KL-VAE) をビジュアル デコーダーとして使用し、画像自体ではなく拡散によってその潜在空間から埋め込みを生成しようとすると、学習はさらに迅速に進行します。 この方法論は、最近リリースされた Stable Diffusion .

Kandinsky 2.0 AI モデル

Kandinsky 2.0 は、いくつかの重要な改良を加えて、強化された潜在拡散技術に基づいています (画像を作成するのではなく、その潜在ベクトルを作成します)。

  • XNUMX つの多言語テキスト エンコーダーを採用し、それらの埋め込みを連結しました。
  • UNet (1.2 億パラメーター) を追加しました。
  • サンプリング手順の動的しきい値。
Kandinsky 2.0 AI モデル
Kandinsky 2.0 AI モデル

研究者は、5 つの多言語エンコーダー (XLMR-clip と mTXNUMX-small) を同時に使用して、 まさにマルチリンガル。 したがって、モデルは英語、ロシア語、フランス語、ドイツ語に加えて、モンゴル語、ヘブライ語、ペルシア語などの言語も理解できます。 AI は合計 101 の言語を認識します。 5 つのモデルを同時に使用してテキストをエンコードすることにしたのはなぜですか? XLMR-clip は画像を見て、さまざまな言語に密接な埋め込みを提供し、mT560-small は複雑なテキストを理解できるため、これらのモデルには異なるが重要な機能があります。 どちらのモデルもパラメーターの数が少ない (146M と XNUMXM) ため、事前テストで実証されたように、XNUMX つのエンコーダーを同時に使用することにしました。

以下の Kandinsky 2.0 AI モデルによって新たに生成された画像:

Kandinsky 2.0 モデルのトレーニングはどのように行われましたか?

Christofari スーパーコンピューターは、ML Space プラットフォームでのトレーニングに利用されました。 それぞれ 196 GB の RAM を搭載した 100 枚の NVIDIA A80 カードが必要でした。 トレーニングを完了するのに 14 日、または 65,856 GPU 時間かかりました。 分析には 256×256 の解像度で 512 日、続いて 512×XNUMX の解像度で XNUMX 日、最も純粋なデータでさらに XNUMX 日かかりました。

トレーニング データとして、透かし、低解像度、および CLIP スコア メトリックで測定されたテキスト説明への準拠の低さについて事前にフィルター処理された多くのデータセットが結合されました。

多言語世代

Kandinsky 2.0 は、言葉からイメージを作成するための最初の多言語モデルであり、言語文化全体で言語的および視覚的な変化を評価する最初の機会を与えてくれます。 同じクエリを複数の言語に翻訳した結果を以下に示します。 たとえば、ロシア語のクエリ「高等教育を受けた人」の生成結果には白人男性のみが表示されますが、フランス語の翻訳「Photo d'une personne diplômée de l'enseignement supérieur」の結果はより多様です。 高等教育を受けた悲しい人々は、ロシア語版にのみ登場することを指摘したいと思います。

多言語世代
プロンプト: 強盗 (1. ロシア語、2. 英語、3. ヒンディー語)
多言語世代
プロンプト: 高等教育を受けた人 (1. ロシア語、2. フランス語、3. 中国語)
多言語世代
プロンプト: 郷土料理 (1. ロシア語、2. 日本料理、3. ヒンディー語)

巨大な言語モデルと計画された拡散プロセスのさまざまな方法を使用した多くの試行がまだありますが、Kandinsky 2.0 が最初の完全な多言語普及モデルであるとすでに自信を持って言えます! 上で フュージョンブレインのウェブサイト & グーグルコラボ、あなたは彼女の絵の例を見ることができます.

AI について詳しく読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories

Galxe が Jambo と提携して世界的なアクセシビリティを拡大 Web3

by アリサ・デビッドソン
2024 年 5 月 02 日
ニュースレターにご参加ください。
最新ニュース

Galxe が Jambo と提携して世界的なアクセシビリティを拡大 Web3

by アリサ・デビッドソン
2024 年 5 月 02 日

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい

Samourai Wallet創設者、ダークネット取引で2億ドルを仲介したとして告発

Samourai Wallet 創設者の懸念は業界にとって顕著な後退を表しており、永続的な問題を浮き彫りにしています。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
コミュニティの批判を受けて、Eigen財団は追加の100 EIGENトークンをユーザーに配布する予定
マーケット ニュースレポート テクノロジー
コミュニティの批判を受けて、Eigen財団は追加の100 EIGENトークンをユーザーに配布する予定
2024 年 5 月 3 日
パンテラ・キャピタルがTONブロックチェーンに投資、暗号通貨へのアクセスを広げるテレグラムの可能性に自信を表明
ビジネス ニュースレポート テクノロジー
パンテラ・キャピタルがTONブロックチェーンに投資、暗号通貨へのアクセスを広げるテレグラムの可能性に自信を表明
2024 年 5 月 2 日
Mitosis がモジュラー流動性プロトコルを推進するために Amber Group と Foresight Ventures から 7 万ドルの資金を調達
ビジネス ニュースレポート テクノロジー
Mitosis がモジュラー流動性プロトコルを推進するために Amber Group と Foresight Ventures から 7 万ドルの資金を調達
2024 年 5 月 2 日
Galxe が Jambo と提携して世界的なアクセシビリティを拡大 Web3
ビジネス ニュースレポート テクノロジー
Galxe が Jambo と提携して世界的なアクセシビリティを拡大 Web3
2024 年 5 月 2 日
CRYPTOMERIA LABS PTE。 株式会社。