Google が新しいテキストから動画への AI ジェネレーター Imagen Video を起動してメタを克服
簡単に言えば
Google の Imagen Video は、ビデオ ジェネレーターがキラー アプリに変わるのを支援しようとしています
Google が Make-a-Video from Meta に反応するまでに時間はかかりませんでした。 テキストプロンプトを使用して、 イメージビデオ 素晴らしいビデオを生み出すかもしれません。 結果は、多くの欠点にもかかわらず、最先端技術を大幅に上回る進歩です。
Facebook の Text-to-Video AI ジェネレーターとの比較 ビデオを作ります、結果は著しく優れています。 ただし、この戦略には、より多くの監視も必要でした。 マイクロ ワーカーが熱心に映画に注釈を付けて説明を書いた Imagen Video とは対照的に、Make-a-Scene はトレーニングにラベルのないビデオを使用しました。
アーキテクチャの詳細に立ち入ることは無意味です。 あなたは記事でそれについて読むべきです こちら. T16 エンコーダーのテキスト埋め込みから 5 秒あたり 48 フレームで 24×3 の解像度で 128 フレームが最初に生成され、これが多数の拡散モデルによって 1280 フレームの最終的なムービーにアップスケールされることのみ確認できます。 768×24、毎秒XNUMXフレーム。
イメージンビデオとは?
Imagen Video は、一連のビデオ拡散モデルに基づいてテキスト条件付きビデオを作成する方法です。 Imagen Video は高品質の映画を制作します。 テキストプロンプト 基本ビデオ制作モデルを一連のインターレース空間および時間ビデオ超解像度モデルと組み合わせることで実現します。 システムを高レベルにスケールアップする際にチームが行った設計上の選択を確認します。defiこれには、拡散モデルの v パラメータ化の決定と、特定の解像度での完全畳み込み時間的および空間的超解像度モデルの選択が含まれます。 さらに、拡散ベースの画像生成に関する以前の研究の結果を検証し、コンテキストに適用します。 ビデオ生成。 その後、ビデオ モデルは分級器を使用しないガイダンスによる漸進的な蒸留を受け、迅速で高品質なサンプリングが行われます。
Google の研究チームは、システムがテキストの説明を受け入れ、 16 フレームのムービーを生成します 24 x 48 ピクセルの解像度で毎秒 128 フレーム。 システムは余分なフレームをスケーリングして「予測」し、毎秒 24 フレーム、解像度 720p (1280 x 768) で 60 フレームの最終ビデオを作成します。 Imagen Video のトレーニングには、14 万の画像とテキストのペアと XNUMX 万のビデオとテキストのペアが使用されました。
ビデオサンプルの画像化
AI を使用してビデオを作成する方が速く、安価であるという理由だけでも、そのようなテクノロジーは間違いなくあらゆる場所で採用されるでしょう。
もっと読むことに興味がありますか? 以下に、確認すべき追加のトピックをいくつか示します。
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。