Stability AIさん Stable Diffusion 2 アルゴリズムがついに公開: 新しい Depth2img モデル、超解像度アップスケーラー、アダルト コンテンツなし
簡単に言えば
Stable Diffusion 2.0 モデルは、以前のモデルよりも高速で、オープンソース、スケーラブルで、より堅牢です
Stable Diffusion リアルタイム レンダリングのための新機能を備えた GPU 対応を実現
深さガイド付き stable diffusion – 創造的なアプリケーションのための新しいアイデアによるイメージツーイメージ
Stability AI 持っています リリース についての新しい論文がブログに掲載されました Stable Diffusion 2. その中で、 Stability AI は、他の最先端の方法に対してベンチマークを行いながら、以前のアルゴリズムよりも効率的で堅牢な新しいアルゴリズムを提案しています。
CompVisのオリジナル Stable Diffusion V1モデル 革命を起こした オープンソースの性質 AIモデル 世界中で何百もの異なるモデルと進歩を生み出しました。 10,000 の Github スターに最速で上昇し、33,000 か月足らずで XNUMX を獲得しました。これは、Github のより多くのプログラムよりも高速です。
オリジナル Stable Diffusion V1 リリースは、Robin Rombach (Stability AI)とビョルン・オマー博士率いるLMUミュンヘンのCompVisグループのパトリック・エッサー氏(ランウェイML)。 彼らは、Latent とのラボの以前の研究に基づいて構築しました 拡散モデル LAION と Eleuther AI から重要なサポートを受けました。
何が Stable Diffusion v1 とは異なります Stable Diffusion v2
Stable Diffusion 2.0 には、以前のバージョンに比べて多くの重要な拡張機能と機能が含まれているので、それらを見てみましょう。
Stable Diffusion 2.0 リリースは、LAION が支援を受けて開発した新しいテキスト エンコーダ (OpenCLIP) でトレーニングされた堅牢なテキストから画像へのモデルを特徴としています。 Stability AIの品質を大幅に向上させます。 生成された画像 以前の V1 リリースよりも。 このリリースのテキストから画像へのモデルは、512×512 ピクセルおよび 768×768 ピクセルのデフォルト解像度で画像を出力できます。
これらのモデルは、によって生成された LAION-5B データセットの美的サブセットを使用してトレーニングされます。 Stability AIの DeepFloyd チームは、LAION の NSFW フィルターを使用してアダルト コンテンツを除外するようにフィルター処理されます。
50 の DDIM サンプル ステップ、50 の分類子のないガイド スケール、および 1.5、2.0、3.0、4.0、5.0、6.0、7.0、および 8.0 を使用した評価は、チェックポイントの相対的な改善を示しています。
Stable Diffusion 2.0 には、画像解像度を XNUMX 倍に高めるアップスケーラー拡散モデルが組み込まれています。 私たちのモデルの例 アップスケーリング 生成された低品質の画像 (128×128) を高解像度の画像 (512×512) に変換した例を以下に示します。 Stable Diffusion 2.0 は、テキストから画像へのモデルと組み合わせると、2048×2048 以上の解像度の画像を生成できるようになりました。
新しい深度ガイド stable diffusion 、depth2img は、以前の画像から画像への機能を V1 から拡張し、まったく新しい創造的な可能性を提供します。 Depth2img は、(既存のモデルを使用して) 入力画像の深度を決定し、新しいモデルを生成します。 画像 テキストと深度情報の両方に基づいています。 Depth-to-Image は、イメージの一貫性と深さを維持しながら、元のイメージとは大きく異なるように見える変更を提供して、多くの新しいクリエイティブ アプリケーションを提供できます。
何が新しいのか Stable Diffusion 2?
- 新しい stable diffusion 768×768の解像度を提供します。
- U-Net にはバージョン 1.5 と同じ量のパラメーターがありますが、ゼロからトレーニングされ、テキスト エンコーダーとして OpenCLIP-ViT/H を使用します。 いわゆる v 予測モデルは SD 2.0-v です。
- 前述のモデルは、SD 2.0 ベースから調整されたもので、SD 512 ベースも利用可能であり、512 x XNUMX 画像の典型的なノイズ予測モデルとしてトレーニングされています。
- x4 スケーリングの潜在的なテキスト ガイド付き拡散モデルが追加されました。
- 洗練された SD 2.0 ベース深度ガイド stable diffusion 。 このモデルは、構造を保存する img2img および形状条件付き合成に利用でき、MiDaS によって推定される単眼の深度推定に基づいて条件付けされます。
- SD 2.0 基盤上に構築された改良されたテキスト ガイド付き修復モデル。
開発者は、最初のイテレーションと同様に懸命に働きました。 Stable Diffusion、単一の GPU で実行できるようにモデルを最適化するため、最初からできるだけ多くの人がモデルにアクセスできるようにしたいと考えていました。 彼らは、何百万人もの個人がこれらのモデルを手に入れ、協力して本当に素晴らしいものを構築すると何が起こるかをすでに見てきました。 これがオープンソースの力です。最先端のモデルをトレーニングするリソースはないかもしれないが、そのモデルを使って驚くべきことを実行する能力を持っている何百万人もの才能ある人々の膨大な可能性を活用するのです。
この新しいアップデートは、depth2img やより優れた解像度のアップスケーリング機能などの強力な新機能と組み合わされて、多数の新しいアプリケーションの基盤として機能し、新しい創造的な可能性を爆発させることができます。
もっと読む Stable Diffusion:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。