Würstchen V2 モデルが支持を獲得 Stable Diffusion 驚異的なスピードで高解像度画像を生成できる XL
最近のツイート 「Würstchen」(ドイツ語で「ソーセージ」の意味)というタイトルの記事の著者による記事は、愛好家や専門家の注目を集めました。 このツイートでは、新しい Würstchen V2 モデルを使用して画像を生成した興味深い結果が共有されました。
Würstchen は高速かつ効率的で、次のようなモデルよりも速く画像を生成します。 Stable Diffusion メモリ使用量を減らしながら XL を実現します。 また、トレーニング コストも削減されており、Würstchen v1 では 9,000×512 解像度で 512 GPU 時間のトレーニングが必要ですが、Würstchen v150,000 では XNUMX GPU 時間しか必要としません。 Stable Diffusion 1.4. この 16 分のコスト削減は、新しい実験を行う研究者に利益をもたらすだけでなく、より多くの組織がそのようなモデルをトレーニングするための扉を開きます。 Würstchen v2 は 24,602 GPU 時間を使用し、6×1.4 でのみトレーニングされた SD512 よりも 512 倍安価になりました。
ヴュルストヒェン V2 は、 拡散モデル これは、高度に圧縮された画像の潜在空間で動作し、トレーニングと推論の計算コストを桁違いに削減します。 斬新な設計を採用し、これまでにない 42 倍の空間圧縮を実現しました。 Würstchen では、ステージ A とステージ B の XNUMX 段階の圧縮を採用しており、圧縮された画像をピクセル空間にデコードします。 XNUMX 番目のモデルであるステージ C は、高度に圧縮された潜在空間で学習され、現在の最高パフォーマンスのモデルに使用されるコンピューティングの一部を必要とする一方、より安価で高速な推論が可能になります。
Würstchen V2 は XNUMX つの拡散ステージで構成されます。
- ステージA: このステージにはテキスト条件付き拡散が含まれており、1 億という驚異的なパラメータを誇ります。 ここでの高速化は、超高圧縮技術によって実現されます。 特に、SDXL で見られるような 128x128x4 の隠しコード サイズではなく、Würstchen V2 は最初は 24x24x16 の解像度で動作します。 これは、ピクセルは減りますがチャンネルが増えることを意味し、結果的に速度が大幅に向上します。
- ステージB: これは 600 億個のパラメータを備えた拡散モデルで、画像を 24×24 から 128×128 の解像度に解凍する役割を果たします。
このプロセスを完了するのは、隠されたコードをレンダリングされたイメージに変換する 20 万のパラメーターを備えたデコーダーです。
すぐに目立つ実用的な利点は、Würstchen V2 の驚くべき速度です。 SDXL の 2 ~ 2.5 倍の速度で動作します。これは、SDXL の分野で注目に値する進歩です。 AI画像生成.
他の技術革新と同様に、トレードオフが発生する可能性があります。 画質に関しては、一部の専門家は若干の損失を示唆していますが、具体的な証拠を提供するための包括的かつ正直な比較がまだ待たれています。
生成されたテキストから画像への変換の例を以下に示します。
関連トピックをもっと読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。