Meta、AI画像生成を改善する「エミュ」を発表
簡単に言えば
Meta AI は、干し草の山の中のフォトジェニックな針を使用して画像生成モデルを改善する方法を開発しました。
このプロセスには、テキスト エンコーダを使用して 1024 × 1024 ピクセルの解像度を達成する、膨大なデータセット上で拡散モデルを事前トレーニングすることが含まれます。
データセットは、人間の専門知識によって標準以下の画像を除外する広範なフィルタリングを受けます。
Meta AI は最近、 研究論文 サービス内でのステッカーと画像の生成を強化するために開発された新しいアプローチについて詳しく説明します。 「」と題された論文Emu: 干し草の山にあるフォトジェニックな針を使用した画像生成モデルの強化、」は、「品質調整された」トレーニング方法が、たとえ小さなデータセットであっても、画像生成の品質をどのように大幅に向上させることができるかを実証することを目的としています。
メタの 事前トレーニング方法とモデルの詳細
最初の段階では、Meta AI の内部リソースからの 1.1 億の画像とテキストのペアで構成される膨大なデータセットを使用して拡散モデルを事前トレーニングします。 このフェーズは、2.8 億もの膨大なパラメータを持つ U-Net モデルに依存しています。 テキスト エンコーダ、特に CLIP ViT-L および T5-XXL はモデルと組み合わせて使用されます。 モデルの最終目標は、解像度 1024 × 1024 ピクセルの画像を生成することです。
モデルのデータセットは厳密なフィルタリングを受け、200,000 億を超えるサンプルのプールから XNUMX を超えるサンプルが削除されます。 画像の美しさを評価する分類器、望ましくないコンテンツを破棄するメカニズム、テキストの多い画像を除外する光学式文字認識 (OCR)、解像度と比率に基づくフィルタリングなど、複数のフィルターが適用されます。 「いいね!」などの人気指標もフィルタリング プロセスに影響します。
この段階では、人間の専門知識が中心的な役割を果たします。 データの注釈を包括的に把握しているジェネラリストは、残りの 200,000 枚の画像を評価し、20,000 枚のサブセットを組み立てます。 ここでの主な目的は、前のステップで使用したヒューリスティックが不適切であることが判明した場合に備えて、著しく標準以下の画像を特定して削除することです。
エミュの画像生成能力
写真の原理に精通した写真専門家のチームが、画像のフィルタリングと選択の作業を担当します。 彼らの目標は、最高の美的品質を持つ画像を特定して保存することです。 彼らは、構成、照明、配色、コントラスト、テーマの関連性、背景などの要素を細心の注意を払って考慮します。
最後の仕上げには、この厳選された 2,000 個の画像とテキストのペアのデータセットに対する高品質のテキスト アノテーションの綿密な作成が含まれます。
最後に、モデルはこの洗練されたデータセットでトレーニングされ、バッチ サイズ 15,000 で 64 ステップを完了します。このバッチ サイズは、大きいバッチ サイズと比較すると比較的小さいです。 生成モデル。 モデルは検証損失に基づいて過剰トレーニングされているように見える場合がありますが、人間による評価ではそうではないことが示されています。 同様の現象が言語モデルでも観察されています。
この調整された複数段階のプロセスを通じて、Meta AI は高品質を実現します。 画像生成。 この方法論は、サービスの実際的な利点を高めることを目的としているだけでなく、AI が生成したコンテンツを洗練する際の慎重なキュレーションと人間の専門知識の重要性も強調しています。 詳細については、完全なドキュメントを参照してください。 記事。
関連トピックをもっと読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。