ニュースレポート テクノロジー
2023 年 9 月 21 日

DALL-E 3 リリースアンプ OpenAIの影響、退社 Midjourney および Stable Diffusion 後ろ

簡単に言えば

DALL-E 3 はシームレスに統合されるように設定されています。 GPT-4、特にのために調整された ChatGPT+ 購読者。

DALL-E 3 は、公人の名前が明示的に言及されている場合、その画像を再作成することを控えます。

DALL-E 3 へのアクセスのスケジュールは XNUMX 月に設定されています。

OpenAI が最新作を発表しました。 DALL-E3。 前作とは異なり、DALL-E 3 は細部を洗練することに重点を置き、レタリングや指などの複雑な体の細部などの問題に対処しています。 結果? 複雑なプロンプトや回避策を必要とせずに、美しく美しい画像を多数提供します。

DALL-E 3 リリースアンプ OpenAIの影響、退社 Midjourney および Stable Diffusion 後ろ

このリリースには、実装の詳細、記事、または API の包括的なセットが付属していないことに注意することが重要です。 代わりに、DALL-E 3 はシームレスに統合されるように設定されています。 GPT-4、特にのために調整された ChatGPT+ 購読者。

この開発は AI の世界における劇的な変化ではなく、むしろモデル間の連携における一歩前進である可能性があります。 多くの人が次のことを予想しています Stable Diffusion より洗練された芸術的な魅力を提供します。

状況に応じて、 OpenAIさんの AI 画像生成の旅は非常に困難なものでした。

  • 2021: 1 億パラメータ モデルである DALL-E 12 は、限られた情報で紹介されました。
  • 2021: オープンソースの 2 億パラメータ モデルとともに、300 億パラメータ モデルの GLIDE が発表されました。
  • 2022: DALL-E 2 は、2 億のパラメータを備え、unCLIP ペーパーと API を伴って到着しました。
  • 2023: DALL-E 3 が登場しました。詳細はやや不可解かもしれませんが、XNUMX つだけ明らかなことは、DALL-E XNUMX は次のものと統合されるということです。 GPT-4 for ChatGPT+ 購読者。

現時点では、DALL-E 3 のビジュアルはやや不足しています。 コードベース、ブログ投稿、または最先端 (SOTA) との詳細な比較はありません。 OpenAI カードを胸の近くに保管しているようです。

DALL-E 3 リリースアンプ OpenAIの影響、退社 Midjourney および Stable Diffusion 後ろ

このモデルは、前モデルと比較してニュアンスや詳細をより深く理解できると宣伝されています。 これは、創造的なコンセプトを高精度の画像に変換するプロセスがよりスムーズになることが期待されることを意味します。

DALL-E 3 の興味深い約束の XNUMX つは、次の機能との統合です。 ChatGPT。 これは、ユーザーが複雑なプロンプトの作成に取り組む必要がないことを意味します。 簡単な説明で十分です。 ChatGPT あなたに代わって詳細なプロンプトを適切に生成します。

OpenAI また、長いプロンプトにおけるコンテキストの重要性も強調しています。 DALL-E 3 は冗長性を考慮して設計されており、広範なプロンプトで説明されるコンテキストにさらに適合します。

ただし、他の新しい AI モデルと同様に、未知の要素があります。 初期段階では有望に見えますが、実際のリトマス試験紙は使用期間を延長してからになります。 その効率性と動作速度については疑問が残ります。

DALL-E 3 は多段階の拡散プロセスになる可能性が高く、 GPT-4 テキストエンコーダとして機能します。 この設定の複雑な仕組みは秘密に包まれたままになる可能性があります。

DALL-E 3 へのアクセスのスケジュールは、当初は XNUMX 月に設定されています。 ChatGPT プラスと ChatGPT エンタープライズユーザーその後、研究者にとってより広範なアクセスが可能になる可能性があります。

関連記事: OpenAIアルトマン氏、米上院でAIのリスクについて議論

ニュアンス および 検閲 ダルイー3の

DALL-E 3 の開発の主な焦点は、その機能を抑制する細心の注意を払うプロセスでした。 これには、特定の種類のコンテンツを除外するように設計された厳格な調整とフィルターが必要でした。 たとえば、モデルは、有名人の画像を生成したり、有名アーティストのスタイルで芸術作品を複製したり、安全ではないとみなされるコンテンツを作成したりすることを断固として拒否します。 OpenAIのこだわりの基準。 この戦略的アプローチは、単なる制限に関するものではありません。 これは、潜在的な法的もつれから会社を守ることを目的とした積極的な措置です。

しかし、これらのフィルターや調整を超えて、いくつかの興味深い観察結果が明らかになります。 DALL-E 3 は、フォトリアリスティックなコンテンツの生成に関して、ある種の弱点を示しているようです。 実際の写真を完璧に模倣した画像を作成するのではなく、出力には独特の様式化された品質が含まれます。 AI によって作成されたこれらの写真は、ほとんどレンダリングされた、わずかにプラスチック的な外観を醸し出しています。 「写真」という言葉が明示的に入力された場合でも、結果はその特徴的な様式にしっかりと根付いたままになります。

プロンプト #1
プロンプト #1: 濡れた砂の中に佇むヤドカリのクローズアップ写真。近くに海の泡があり、その甲羅と砂の質感の詳細が強調されています。
プロンプト #2
プロンプト #2: 鮮やかな黄色のバナナの形をしたソファが居心地の良いリビング ルームに置かれ、その曲線がカラフルなクッションの山を支えています。 木の床には模様入りのラグが折衷的な魅力を加え、隅には窓から差し込む陽光に向かって伸びる鉢植えが置かれている。
プロンプト #3
プロンプト #3: 海底にある古代の難破船の写真。 木造建築物には海洋植物が生息しており、その空洞には魚が出入りしています。 周囲には沈没した宝物や古い大砲が点在しており、過去を垣間見ることができます。

こうした特異性にもかかわらず、DALL-E 3 には注目に値する可能性が垣間見えることは注目に値します。 その作品の中には、写真と驚くほど類似したものもあります。 これらの画像のシミュレートされたリアリズムは、特に水中に沈んだ場合、同じ被写体の本物の写真がどのように見えるか必ずしも一致するとは限らないことに留意してください。

関連記事: Microsoft は、DALL-E 2 に基づく最初のプロフェッショナルなテキストから画像へのツールである Designer を発表しました

DALL-E 3の特長と詳細

この新しいモデルが実際に何を提供するのかを理解するために、ピクセルを調べて行間を読んでみましょう。

様式化の芸術: ざっと見る OpenAIさんのインスタグラムアカウント、絶妙な様式化を特徴とするアートワークが豊富にあることに気づくでしょう。 印象的な抽象的な構成やデザインが数多くある一方で、このモデルは写実的なコンテンツの作成を避けているようです。 ここで強調されるのは、現実を模倣することではなく、美学と創造性です。

芸術的な制約: DALL-E 3 は、前任者とは異なる道をたどりました。 生きているアーティストのスタイルで画像を作成することを断固として拒否しており、特定のアーティストのスタイルを模倣する可能性のある DALL-E 2 とは大きく異なります。 これは、クリエイティブなコミュニティで眉をひそめるかもしれません。これは、 Stable Diffusion 2.0.

アーティストに力を与える: アーティストの権利を尊重する動きとして、 OpenAI アーティストが将来の DALL-E バージョンから自分の作品を除外できるようになります。 アーティストは、権利を所有する画像を送信することで、モデルの出力からその画像を除外するようリクエストできます。 今後の DALL-E の反復では、次のようなコンテンツの生成が回避されます。 アーティストのスタイル.

セキュリティと検閲: OpenAIのセキュリティに対する被害妄想は明白です。 彼らは外部の「レッドチーム」と協力してモデルのセキュリティをテストし、入力分類子を使用して、露骨なコンテンツや有害なコンテンツにつながる可能性のある特定の単語を無視するようにモデルに教えました。 DALL-E 3 はイメージの再現を控えています 有名人 彼らの名前が明示的に言及されている場合。 有名人がこのカテゴリに該当するかどうかは依然として不明であり、生成される顔の品質に影響を与える可能性があります。

透かしと追跡:「AIが生成した画像」を追跡するためのタグの埋め込みにヒントがあり、生成されたコンテンツの監視を強化し、潜在的に透かしを入れる方向への動きを示しています。

テキストと針の改善: OpenAI 競合他社がよく主張するテキスト生成と手動レンダリングの改善を宣伝しています。 本当のテストは、厳選された例を超えた実際の出力にあります。

空間把握: DALL-E 3 は、プロンプトに記述された空間関係の理解に優れています。 これにより、複雑な角度や構図を構築するモデルの能力が強化されますが、ユーザーはこの約束のより具体的な証拠を待っています。

プロンプトの力: 核心 DALL-E3 迅速な機能と統合にあります。 ChatGPT。 迅速な設計の自動化、スピード化、簡素化を約束します。 ここでの傾向は次のとおりです chatGPT プロンプトの生成、漠然としたアイデアや初歩的なプロンプトを雄弁に翻訳します。 DALL-E 3 のコンテキスト理解の向上によりプロセスが合理化され、ユーザーは冗長さよりも意図に集中できるようになります。

未知の領域: インペイント、アウトペイント、ジェネレーティブ フィル、3D モデリングなどの側面が議論に特に欠けています。 これらの機能がないことは、特により汎用性の高いモデルに慣れているユーザーにとっては制限となる可能性があります。

アクセスの詳細: DALL-E 3 は次のユーザーに利用可能になるように設定されています ChatGPT Plus および Enterprise のお客様は XNUMX 月初旬に開始されます。 ただし、単位の配分に関する詳細は、 ChatGPT さらに、ユーザーと関連コストは依然として不明です。 アクセスは API 経由で提供されます。 OpenAI Labs プラットフォームは「秋後半」に予定されています。

統合能力: DALL-E は、パートナー製品と Microsoft 製品にシームレスに統合されるように設定されています。 プレゼンテーション、イラスト、デザイン、ロゴがすべてコンテキスト内で生成され、次の支援を受けて増幅される様子を目撃できることを期待してください。 ChatGPT。 この統合は主流になる見込みで、次のような競合他社に大きな課題をもたらします。 Google と吟遊詩人 そして表意文字。

LLM とビジュアル コンテンツの融合: 最も興味深い点は、大規模言語モデル (LLM) とビジュアル コンテンツ生成モデルの収束にあります。 これは、複雑な即時エンジニアリングから、よりアクセスしやすい言語でアイデアを表現することへの移行を意味します。 AI はこれらの表現からコンテキストとアイデアを収集し、抗しがたい創造的な可能性を提供します。

関連記事: AI アート ジェネレーターのテキストから画像へのプロンプト トップ 50 Midjourney そしてダルイー

DALL-E 3: AI 画像生成の新たなリーダーになる

OpenAIDALL-E 3 を ChatGPT エコシステムは戦略的な動きです。 この統合により、DALL-E 3 は 100 億人のアクティブ ユーザーからなる広大なユーザー データベースにアクセスできるようになります。 このステップにより、DALL-E 3 のアクセシビリティが大幅に向上し、その人気が一気に高まる可能性があります。

現在、 Midjourney および Stable Diffusion 周りに自慢する 登録ユーザー数15人。 ただし、この統合により、DALL-E 3 は 100 倍のユーザー ベース (XNUMX 億ユーザー) にアクセスできるようになります。 これにより、 ChatGPT プラス購読 このプランでは、チャットボット、分析ツール、画像生成へのアクセスがすべて手頃な価格で提供されるため、さらに魅力的です。

この統合は既存ユーザーにとってメリットがあるだけでなく、新規ユーザーにとっても強力な磁石として機能します。 それは、 OpenAI エコシステムの範囲と人気が高まり、AI によって生成されたコンテンツ ソリューションを求める個人が集まります。

この戦略的な動きは勢いを高める準備ができています OpenAIの収益とその他の主要な指標。 同社の投資家は、特に最近の状況を考慮すると、この展開を好意的に見るだろう。 交通量が20%減少 夏の間。

ChatGPT ウェブトラフィックは20月にXNUMX%減少し、引き続き急落が続く

関連トピックをもっと読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories
ニュースレターにご参加ください。
最新ニュース

コンテンツ作成、ビデオ編集などのための無料 AI ツール トップ 10

by ヴィクトリア・パルチク
2024 年 5 月 14 日

リップルからビッググリーンDAOまで:仮想通貨プロジェクトはどのように慈善活動に貢献するのか

慈善活動のためにデジタル通貨の可能性を活用する取り組みを検討してみましょう。

詳細を知りたい

AlphaFold 3、Med-Gemini、その他: AI が 2024 年に医療を変革する方法

AI は、新しい遺伝的相関関係の発見からロボット手術システムの強化に至るまで、医療分野でさまざまな形で現れます。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
コンテンツ作成、ビデオ編集などのための無料 AI ツール トップ 10
AI Wiki ダイジェスト 教育 ライフスタイル ソフトウェア テクノロジー
コンテンツ作成、ビデオ編集などのための無料 AI ツール トップ 10
2024 年 5 月 14 日
香港証券委員会、仮想通貨業界を狙ったディープフェイク詐欺を警告:投資家の安全への影響
ライフスタイル セキュリティ Wiki ソフトウェア ストーリーとレビュー テクノロジー
香港証券委員会、仮想通貨業界を狙ったディープフェイク詐欺を警告:投資家の安全への影響
2024 年 5 月 14 日
リップルとEvmosがEvmOSテクノロジーを使用したXRPレジャーEVMサイドチェーンの開発で協力
ビジネス ニュースレポート テクノロジー
リップルとEvmosがEvmOSテクノロジーを使用したXRPレジャーEVMサイドチェーンの開発で協力
2024 年 5 月 14 日
5ireChain、ネットワークストレステスト向けのインセンティブ付き「Testnet Thunder: GA」を開始、ユーザーに参加を呼びかけ Airdrop 報酬
ニュースレポート テクノロジー
5ireChain、ネットワークストレステスト向けのインセンティブ付き「Testnet Thunder: GA」を開始、ユーザーに参加を呼びかけ Airdrop 報酬
2024 年 5 月 14 日
CRYPTOMERIA LABS PTE。 株式会社。