گزارش خبری تکنولوژی
سپتامبر 21، 2023

DALL-E 3 Release تقویت می شود OpenAIنفوذ، ترک Midjourney و Stable Diffusion پشت

به طور خلاصه

DALL-E 3 قرار است به طور یکپارچه با آن یکپارچه شود GPT-4، به طور خاص برای ChatGPT+ مشترکین

DALL-E 3 از بازآفرینی تصاویر شخصیت های عمومی زمانی که نام آنها به صراحت ذکر می شود خودداری می کند.

جدول زمانی دسترسی به DALL-E 3 برای ماه اکتبر تعیین شده است.

OpenAI از جدیدترین ساخته خود رونمایی کرد: DALL-E3. برخلاف مدل های قبلی خود، DALL-E 3 بر اصلاح جزئیات تمرکز دارد و به مسائلی مانند حروف و جزئیات پیچیده بدن مانند انگشتان دست می پردازد. نتیجه؟ مجموعه ای از تصاویر زیباشناختی بدون نیاز به دستورات پیچیده یا راه حل.

DALL-E 3 Release تقویت می شود OpenAIنفوذ، ترک Midjourney و Stable Diffusion پشت

توجه به این نکته مهم است که این نسخه با مجموعه ای جامع از جزئیات پیاده سازی، مقالات یا API ها ارائه نمی شود. در عوض، DALL-E 3 قرار است به طور یکپارچه با آن یکپارچه شود GPT-4، به طور خاص برای ChatGPT+ مشترکین

این پیشرفت ممکن است یک تغییر لرزه ای در چشم انداز هوش مصنوعی نباشد، بلکه یک گام به جلو در همکاری بین مدل ها باشد. بسیاری پیش بینی می کنند که بعدی Stable Diffusion مدل پیچیدگی و جذابیت هنری بیشتری را ارائه خواهد داد.

برای قرار دادن آن در زمینه، OpenAIسفر از طریق تولید تصویر هوش مصنوعی کاملاً هیجان انگیز بوده است:

  • 2021: DALL-E 1، یک مدل پارامتری 12 میلیاردی، با اطلاعات محدود معرفی شد.
  • 2021: GLIDE، یک مدل پارامتری 2 میلیاردی، همراه با مدل های 300 میلیون پارامتری منبع باز رونمایی شد.
  • 2022: DALL-E 2 با 2 میلیارد پارامتر همراه با کاغذ unCLIP و API وارد شد.
  • 2023: DALL-E 3 وارد شده است، و اگرچه جزئیات ممکن است تا حدی مرموز باشد، یک چیز واضح است - با GPT-4 برای ChatGPT+ مشترکین

در حال حاضر، تصاویر DALL-E 3 تا حدودی کمیاب هستند. هیچ پایگاه کد، پست وبلاگ، یا مقایسه دقیق با آخرین هنر (SOTA) وجود ندارد. OpenAI به نظر می رسد که کارت های خود را نزدیک سینه خود نگه می دارند.

DALL-E 3 Release تقویت می شود OpenAIنفوذ، ترک Midjourney و Stable Diffusion پشت

این مدل در مقایسه با مدل های قبلی خود دارای درک عمیق تری از تفاوت های ظریف و جزئیات است. این بدان معنی است که انتظار می رود ترجمه مفاهیم خلاقانه شما به تصاویر بسیار دقیق فرآیند روان تری باشد.

یکی از وعده های جالب DALL-E 3 یکپارچه سازی آن با آن است ChatGPT. این بدان معناست که کاربران نیازی به دست و پنجه نرم کردن با ایجاد دستورات پیچیده ندارند. یک توضیح مختصر باید کافی باشد، با ChatGPT به طرز ماهرانه ای پیام های دقیق از طرف شما ایجاد می کند.

OpenAI همچنین بر اهمیت زمینه در اعلان های طولانی تاکید کرده است. DALL-E 3 به گونه ای طراحی شده است که پرحرفی را در بر بگیرد و آن را بیشتر با زمینه توصیف شده در اعلان های گسترده هماهنگ کند.

با این حال، مانند هر مدل جدید هوش مصنوعی، یک عنصر ناشناخته وجود دارد. در حالی که اجمالی اولیه امیدوارکننده به نظر می رسد، آزمون تورنسل واقعی با استفاده طولانی همراه خواهد بود. سوالاتی در مورد کارایی و سرعت عملکرد آن وجود دارد.

این احتمال وجود دارد که DALL-E 3 یک فرآیند انتشار چند مرحله ای باشد GPT-4 به عنوان رمزگذار متن عمل می کند. مکانیک پیچیده این تنظیم ممکن است در رازداری باقی بماند.

جدول زمانی دسترسی به DALL-E 3 برای ماه اکتبر، در ابتدا برای ChatGPT به علاوه و ChatGPT کاربر سازمانیs، با امکان دسترسی گسترده تر برای محققان پس از آن.

مربوط: OpenAIآلتمن در سنای ایالات متحده برای بررسی خطرات هوش مصنوعی

تفاوت های ظریف و سانسور از DALL-E 3

نقطه کانونی اولیه توسعه DALL-E 3، فرآیند دقیق محدود کردن قابلیت‌های آن بود. این شامل تراز و فیلترهای دقیقی بود که برای حذف انواع خاصی از محتوا طراحی شده بودند. به عنوان مثال، این مدل قاطعانه از تولید تصاویر شخصیت‌های مشهور، تکرار آثار هنری به سبک هنرمندان مشهور، یا ایجاد هر محتوایی که توسط آنها ناامن تلقی می‌شود، امتناع می‌کند. OpenAIاستانداردهای برجسته این رویکرد استراتژیک فقط در مورد محدودیت ها نیست. این یک اقدام پیشگیرانه با هدف محافظت از شرکت در برابر درگیری های قانونی بالقوه است.

با این حال، فراتر از این فیلترها و هم ترازی ها، برخی مشاهدات جذاب آشکار می شوند. به نظر می رسد DALL-E 3 در تولید محتوای فوتورئالیستی از ضعف خاصی برخوردار است. به‌جای تولید تصاویری که عکس‌های واقعی را بی‌عیب و نقص تقلید می‌کنند، خروجی دارای کیفیتی متمایز است. این تصاویر ساخته شده با هوش مصنوعی ظاهری تقریباً رندر شده و کمی پلاستیکی دارند. حتی زمانی که صراحتاً با کلمه "عکس" خواسته می شود، نتیجه در سبک سازی مشخص خود باقی می ماند.

درخواست شماره 1
درخواست شماره 1: عکسی از نمای نزدیک از یک خرچنگ گوشه نشین که در ماسه مرطوب لانه کرده است، با کف دریا در نزدیکی آن و جزئیات پوسته و بافت ماسه برجسته شده است.
درخواست شماره 2
درخواست شماره 2: یک کاناپه موز شکل زرد پر جنب و جوش در یک اتاق نشیمن دنج قرار دارد و منحنی آن روی انبوهی از کوسن های رنگارنگ قرار گرفته است. در کف چوبی، یک فرش طرح دار جذابیت التقاطی را به آن اضافه می کند و یک گیاه گلدانی در گوشه ای نشسته و به سمت نور خورشید می رسد که از پنجره عبور می کند.
درخواست شماره 3
درخواست شماره 3: عکسی از یک کشتی شکسته باستانی که در کف اقیانوس لانه کرده است. گیاهان دریایی ادعای ساختار چوبی را دارند و ماهی ها در داخل و خارج از فضاهای توخالی آن شنا می کنند. گنجینه های غرق شده و توپ های قدیمی در اطراف پراکنده شده اند و نگاهی اجمالی به گذشته دارند.

شایان ذکر است که علی‌رغم این ویژگی‌ها، DALL-E 3 نگاهی اجمالی به پتانسیل قابل‌توجهی دارد. در میان ساخته های آن، برخی از نمونه ها شباهت قابل توجهی به عکس ها دارند. به خاطر داشته باشید که رئالیسم شبیه سازی شده این تصاویر لزوماً با نحوه ظاهر شدن یک عکس واقعی از یک سوژه، به ویژه اگر در زیر آب غوطه ور شود، مطابقت ندارد.

مربوط: مایکروسافت از Designer، اولین ابزار حرفه ای تبدیل متن به تصویر بر اساس DALL-E 2 رونمایی کرد.

ویژگی ها و جزئیات DALL-E 3

بیایید لحظه ای از پیکسل ها را غربال کنیم و بین خطوط را مطالعه کنیم تا بفهمیم این مدل جدید واقعا چه چیزی را ارائه می دهد.

هنر سبک سازی: نگاهی گذرا OpenAIاکانت اینستاگرام، متوجه آثار هنری فراوانی خواهید شد که با سبک سازی عالی مشخص می شود. در حالی که مجموعه‌ای چشمگیر از ترکیب‌بندی‌ها و طرح‌های انتزاعی وجود دارد، به نظر می‌رسد این مدل از تولید محتوای فوتورئالیستی دوری می‌کند. در اینجا تاکید بر زیبایی شناسی و خلاقیت است، نه تقلید از واقعیت.

محدودیت های هنری: DALL-E 3 مسیری متفاوت از نسخه قبلی خود در پیش گرفته است. قاطعانه از خلق تصاویری به سبک هنرمندان زنده امتناع می ورزد، یک انحراف آشکار از DALL-E 2، که می تواند سبک های هنرمندان خاصی را تقلید کند. این ممکن است ابروها را در جامعه خلاق ایجاد کند، شبیه به استقبال گرم از Stable Diffusion 2.0.

توانمندسازی هنرمندان: در اقدامی برای رعایت حقوق هنرمندان، OpenAI به هنرمندان اجازه می دهد تا آثار خود را از نسخه های آینده DALL-E حذف کنند. هنرمندان با ارسال تصویری که حقوق مربوط به آن را دارند، می‌توانند درخواست حذف آن از خروجی مدل را داشته باشند. سپس تکرارهای بعدی DALL-E از تولید محتوایی شبیه به آن جلوگیری خواهد کرد سبک هنرمند.

امنیت و سانسور: OpenAIپارانویای او در مورد امنیت محسوس است. آن‌ها با «تیم‌های قرمز» خارجی برای آزمایش امنیت مدل همکاری کرده‌اند و از طبقه‌بندی‌کننده‌های ورودی برای آموزش مدل نادیده گرفتن کلمات خاصی که می‌توانند به محتوای صریح یا مضر منجر شوند، استفاده کرده‌اند. DALL-E 3 از بازآفرینی تصاویر خودداری می کند چهره های عمومی هنگامی که نام آنها به صراحت ذکر می شود. اینکه آیا افراد مشهور تحت این دسته قرار می‌گیرند، نامشخص است و به طور بالقوه بر کیفیت چهره‌های تولید شده تأثیر می‌گذارد.

واترمارک و ردیابی: اشاره‌ای به تعبیه برچسب‌ها برای ردیابی «تصاویر تولید شده توسط هوش مصنوعی» وجود دارد که نشان‌دهنده حرکت به سمت نظارت بهتر و واترمارک کردن محتوای تولید شده است.

متن و دست ها بهبود یافته است: OpenAI touts تولید متن و رندر دستی را بهبود بخشید، ادعایی رایج در میان رقبا. آزمون واقعی در خروجی واقعی فراتر از نمونه های گیلاس چیده شده نهفته است.

درک فضایی: DALL-E 3 در درک روابط فضایی شرح داده شده در دستورات عالی است. این توانایی مدل را برای ساختن زوایای پیچیده و ترکیب‌بندی‌ها افزایش می‌دهد، اگرچه کاربران منتظر شواهد ملموس‌تری از این وعده هستند.

قدرت اعلانات: نکته اصلی DALL-E3 در قابلیت های سریع و ادغام آن نهفته است ChatGPT. این نوید اتوماسیون، سرعت و ساده سازی طراحی سریع را می دهد. گرایش در اینجا به سمت است chatGPT ایجاد اعلان ها، ترجمه ایده های مبهم یا درخواست های ابتدایی به ایده های شیوا. درک متنی بهبود یافته DALL-E 3 فرآیند را ساده می‌کند و به کاربران اجازه می‌دهد بر قصد و نیت بیش از پرحرفی تمرکز کنند.

سرزمین های ناشناخته: به طور قابل‌توجهی در بحث وجود ندارد، جنبه‌هایی مانند نقاشی داخلی، نقاشی بیرونی، پر کردن تولیدی و مدل‌سازی سه بعدی. عدم وجود این ویژگی ها می تواند یک محدودیت باشد، به خصوص برای کاربرانی که به مدل های همه کاره تر عادت دارند.

جزئیات دسترسی: DALL-E 3 قرار است در دسترس قرار گیرد ChatGPT مشتریان Plus و Enterprise در اوایل اکتبر. با این حال، مشخصات در مورد تخصیص اعتبار برای ChatGPT بعلاوه کاربران و هزینه های مربوطه نامشخص هستند. دسترسی از طریق API و OpenAI پلت فرم آزمایشگاه‌ها «در اواخر پاییز».

مهارت یکپارچه سازی: DALL-E قرار است به طور یکپارچه در محصولات شریک و مایکروسافت ادغام شود. انتظار داشته باشید که شاهد تولید ارائه ها، تصاویر، طرح ها، آرم ها، همه در زمینه و تقویت شده با کمک از ChatGPT. این ادغام قرار است به جریان اصلی تبدیل شود و چالش مهمی را برای رقبای مانند ایجاد کند گوگل با باردش و ایدئوگرام

همگرایی LLM و محتوای بصری: جذاب ترین جنبه در همگرایی مدل های زبان بزرگ (LLM) و مدل های تولید محتوای بصری نهفته است. این نشان دهنده تغییر از مهندسی سریع پیچیده به بیان ایده ها به زبانی قابل دسترس تر است. هوش مصنوعی زمینه و ایده هایی را از این عبارات استخراج می کند و امکانات خلاقانه ای را ارائه می دهد که مقاومت در برابر آنها دشوار است.

مربوط: 50 درخواست برتر تبدیل متن به تصویر برای تولیدکنندگان هنر هوش مصنوعی Midjourney و DALL-E

DALL-E 3: یک رهبر جدید در نسل تصویر هوش مصنوعی باشید

OpenAIتصمیم برای ادغام DALL-E 3 در ChatGPT اکوسیستم یک حرکت استراتژیک است. این ادغام به DALL-E 3 اجازه دسترسی به پایگاه داده گسترده کاربران از 100 میلیون کاربر فعال را می دهد. این مرحله به طور قابل توجهی دسترسی DALL-E 3 را افزایش می دهد و این پتانسیل را دارد که محبوبیت آن را افزایش دهد.

در حال حاضر، Midjourney و Stable Diffusion به خود ببالند 15 میلیون کاربر ثبت شده. با این حال، با این ادغام، DALL-E 3 قرار است به پایگاه کاربری ده برابر بزرگتر یعنی 100 میلیون کاربر دسترسی پیدا کند. این باعث می شود ChatGPT اشتراک پلاس برنامه‌ریزی بسیار جذاب‌تر است، زیرا دسترسی به ربات چت، ابزارهای تحلیلی و تولید تصویر را با قیمتی مقرون به صرفه ارائه می‌دهد.

ادغام نه تنها برای کاربران فعلی مفید است، بلکه به عنوان یک آهنربای قدرتمند برای کاربران جدید نیز عمل می کند. گسترش می دهد OpenAI دسترسی و محبوبیت اکوسیستم، افرادی را جذب می کند که به دنبال راه حل های محتوای تولید شده توسط هوش مصنوعی هستند.

این حرکت استراتژیک در حال افزایش است OpenAIدرآمد و سایر معیارهای کلیدی سرمایه گذاران این شرکت احتمالاً به این پیشرفت به ویژه با توجه به اخیراً نگاه مثبت خواهند داشت کاهش 20 درصدی حجم ترافیک در طول تابستان.

DALL-E 3 Release تقویت می شود OpenAIنفوذ، ترک Midjourney و Stable Diffusion پشت
ChatGPT ترافیک وب در ماه سپتامبر 20 درصد کاهش می یابد و همچنان به کاهش خود ادامه می دهد

ادامه مطالب مرتبط را بخوانید:

رفع مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

از Ripple تا The Big Green DAO: چگونه پروژه های ارزهای دیجیتال به خیریه کمک می کنند

بیایید طرح‌هایی را بررسی کنیم که از پتانسیل ارزهای دیجیتال برای اهداف خیریه استفاده می‌کنند.

بیشتر بدانید

AlphaFold 3، Med-Gemini، و دیگران: روشی که هوش مصنوعی مراقبت های بهداشتی را در سال 2024 متحول می کند

هوش مصنوعی به روش های مختلفی در مراقبت های بهداشتی ظاهر می شود، از کشف همبستگی های ژنتیکی جدید تا توانمندسازی سیستم های جراحی رباتیک...

بیشتر بدانید
ادامه مطلب
ادامه مطلب
رونمایی از آینده GameFi: شش مبتکر برای تسلط Web3 منظره بازی در سال 2025
شیوه زندگی گزارش خبری تکنولوژی
رونمایی از آینده GameFi: شش مبتکر برای تسلط Web3 منظره بازی در سال 2025
ژانویه 13، 2025
Bitfinex: احتیاط بازار کریپتو رشد می کند، اما بیت کوین انعطاف پذیر باقی می ماند
بازارها گزارش خبری تکنولوژی
Bitfinex: احتیاط بازار کریپتو رشد می کند، اما بیت کوین انعطاف پذیر باقی می ماند
ژانویه 13، 2025
با وجود عقب نشینی های اخیر و نوسانات بازار، Grayscale به چشم انداز صعودی بلندمدت کریپتو مطمئن است.
نظر کسب و کار بازارها تکنولوژی
با وجود عقب نشینی های اخیر و نوسانات بازار، Grayscale به چشم انداز صعودی بلندمدت کریپتو مطمئن است.
ژانویه 13، 2025
UniSat خدمات بازار CAT20 را به دلیل به روز رسانی پروتکل CAT به حالت تعلیق در می آورد
گزارش خبری تکنولوژی
UniSat خدمات بازار CAT20 را به دلیل به روز رسانی پروتکل CAT به حالت تعلیق در می آورد
ژانویه 13، 2025
CRYPTOMERIA LABS PTE. محدود