ニュースレポート テクノロジー
2023 年 9 月 28 日

Meta、AI画像生成を改善する「エミュ」を発表

簡単に言えば

Meta AI は、干し草の山の中のフォトジェニックな針を使用して画像生成モデルを改善する方法を開発しました。

このプロセスには、テキスト エンコーダを使用して 1024 × 1024 ピクセルの解像度を達成する、膨大なデータセット上で拡散モデルを事前トレーニングすることが含まれます。

データセットは、人間の専門知識によって標準以下の画像を除外する広範なフィルタリングを受けます。

Emu: 画像生成モデルを強化するメタ AI の革新的なアプローチ

Meta AI は最近、 研究論文 サービス内でのステッカーと画像の生成を強化するために開発された新しいアプローチについて詳しく説明します。 「」と題された論文Emu: 干し草の山にあるフォトジェニックな針を使用した画像生成モデルの強化、」は、「品質調整された」トレーニング方法が、たとえ小さなデータセットであっても、画像生成の品質をどのように大幅に向上させることができるかを実証することを目的としています。

メタの 事前トレーニング方法とモデルの詳細

最初の段階では、Meta AI の内部リソースからの 1.1 億の画像とテキストのペアで構成される膨大なデータセットを使用して拡散モデルを事前トレーニングします。 このフェーズは、2.8 億もの膨大なパラメータを持つ U-Net モデルに依存しています。 テキスト エンコーダ、特に CLIP ViT-L および T5-XXL はモデルと組み合わせて使用​​されます。 モデルの最終目標は、解像度 1024 × 1024 ピクセルの画像を生成することです。

モデルのデータセットは厳密なフィルタリングを受け、200,000 億を超えるサンプルのプールから XNUMX を超えるサンプルが削除されます。 画像の美しさを評価する分類器、望ましくないコンテンツを破棄するメカニズム、テキストの多い画像を除外する光学式文字認識 (OCR)、解像度と比率に基づくフィルタリングなど、複数のフィルターが適用されます。 「いいね!」などの人気指標もフィルタリング プロセスに影響します。

関連記事: Meta がジェネレーティブ エミュ モデルからスマート グラスまで、サービス全体にわたる AI 統合を発表

この段階では、人間の専門知識が中心的な役割を果たします。 データの注釈を包括的に把握しているジェネラリストは、残りの 200,000 枚の画像を評価し、20,000 枚のサブセットを組み立てます。 ここでの主な目的は、前のステップで使用したヒューリスティックが不適切であることが判明した場合に備えて、著しく標準以下の画像を特定して削除することです。

関連記事: Meta が創造性を拡張する 28 人の AI キャラクターと AI Studio を発表

エミュの画像生成能力

写真の原理に精通した写真専門家のチームが、画像のフィルタリングと選択の作業を担当します。 彼らの目標は、最高の美的品質を持つ画像を特定して保存することです。 彼らは、構成、照明、配色、コントラスト、テーマの関連性、背景などの要素を細心の注意を払って考慮します。

最後の仕上げには、この厳選された 2,000 個の画像とテキストのペアのデータセットに対する高品質のテキスト アノテーションの綿密な作成が含まれます。

最後に、モデルはこの洗練されたデータセットでトレーニングされ、バッチ サイズ 15,000 で 64 ステップを完了します。このバッチ サイズは、大きいバッチ サイズと比較すると比較的小さいです。 生成モデル。 モデルは検証損失に基づいて過剰トレーニングされているように見える場合がありますが、人間による評価ではそうではないことが示されています。 同様の現象が言語モデルでも観察されています。

この調整された複数段階のプロセスを通じて、Meta AI は高品質を実現します。 画像生成。 この方法論は、サービスの実際的な利点を高めることを目的としているだけでなく、AI が生成したコンテンツを洗練する際の慎重なキュレーションと人間の専門知識の重要性も強調しています。 詳細については、完全なドキュメントを参照してください。 記事。

同じプロンプトの生成例。 左側はステップ 1 の後のモデル (つまり、データをいじらずに事前学習だけを行ったモデル)、右側はすべての手順を経た後のモデルです。

関連トピックをもっと読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories
ニュースレターにご参加ください。
最新ニュース

リップルからビッググリーンDAOまで:仮想通貨プロジェクトはどのように慈善活動に貢献するのか

慈善活動のためにデジタル通貨の可能性を活用する取り組みを検討してみましょう。

詳細を知りたい

AlphaFold 3、Med-Gemini、その他: AI が 2024 年に医療を変革する方法

AI は、新しい遺伝的相関関係の発見からロボット手術システムの強化に至るまで、医療分野でさまざまな形で現れます。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
Manta Network がネイティブ ステーキングを導入し、ユーザーが Omni Liquid ステーキングで MANTA をステーキングできるようになります
マーケット ニュースレポート テクノロジー
Manta Network がネイティブ ステーキングを導入し、ユーザーが Omni Liquid ステーキングで MANTA をステーキングできるようになります
2024 年 5 月 15 日
ブルームバーグ: ビットコインが史上最高値を取り戻す前の半減期後の調整段階が始まる
マーケット ニュースレポート テクノロジー
ブルームバーグ: ビットコインが史上最高値を取り戻す前の半減期後の調整段階が始まる
2024 年 5 月 15 日
Vitalik Buterin氏、イーサリアムトランザクションCalldataに新しいタイプのガスを導入するEIP-7706提案をリリース
ニュースレポート テクノロジー
Vitalik Buterin氏、イーサリアムトランザクションCalldataに新しいタイプのガスを導入するEIP-7706提案をリリース
2024 年 5 月 14 日
ワールドコインのWLDトークンは今後数カ月以内にさらに多くのロック解除を求めて積極的な販売圧力に直面すると警告 DeFi2 バイビットトレーダー
マーケット ニュースレポート テクノロジー
ワールドコインのWLDトークンは今後数カ月以内にさらに多くのロック解除を求めて積極的な販売圧力に直面すると警告 DeFi2 バイビットトレーダー
2024 年 5 月 14 日
CRYPTOMERIA LABS PTE。 株式会社。