DALL-E 3 Release تقویت می شود OpenAIنفوذ، ترک Midjourney و Stable Diffusion پشت
به طور خلاصه
DALL-E 3 قرار است به طور یکپارچه با آن یکپارچه شود GPT-4، به طور خاص برای ChatGPT+ مشترکین
DALL-E 3 از بازآفرینی تصاویر شخصیت های عمومی زمانی که نام آنها به صراحت ذکر می شود خودداری می کند.
جدول زمانی دسترسی به DALL-E 3 برای ماه اکتبر تعیین شده است.
OpenAI از جدیدترین ساخته خود رونمایی کرد: DALL-E3. برخلاف مدل های قبلی خود، DALL-E 3 بر اصلاح جزئیات تمرکز دارد و به مسائلی مانند حروف و جزئیات پیچیده بدن مانند انگشتان دست می پردازد. نتیجه؟ مجموعه ای از تصاویر زیباشناختی بدون نیاز به دستورات پیچیده یا راه حل.
توجه به این نکته مهم است که این نسخه با مجموعه ای جامع از جزئیات پیاده سازی، مقالات یا API ها ارائه نمی شود. در عوض، DALL-E 3 قرار است به طور یکپارچه با آن یکپارچه شود GPT-4، به طور خاص برای ChatGPT+ مشترکین
این پیشرفت ممکن است یک تغییر لرزه ای در چشم انداز هوش مصنوعی نباشد، بلکه یک گام به جلو در همکاری بین مدل ها باشد. بسیاری پیش بینی می کنند که بعدی Stable Diffusion مدل پیچیدگی و جذابیت هنری بیشتری را ارائه خواهد داد.
برای قرار دادن آن در زمینه، OpenAIسفر از طریق تولید تصویر هوش مصنوعی کاملاً هیجان انگیز بوده است:
- 2021: DALL-E 1، یک مدل پارامتری 12 میلیاردی، با اطلاعات محدود معرفی شد.
- 2021: GLIDE، یک مدل پارامتری 2 میلیاردی، همراه با مدل های 300 میلیون پارامتری منبع باز رونمایی شد.
- 2022: DALL-E 2 با 2 میلیارد پارامتر همراه با کاغذ unCLIP و API وارد شد.
- 2023: DALL-E 3 وارد شده است، و اگرچه جزئیات ممکن است تا حدی مرموز باشد، یک چیز واضح است - با GPT-4 برای ChatGPT+ مشترکین
در حال حاضر، تصاویر DALL-E 3 تا حدودی کمیاب هستند. هیچ پایگاه کد، پست وبلاگ، یا مقایسه دقیق با آخرین هنر (SOTA) وجود ندارد. OpenAI به نظر می رسد که کارت های خود را نزدیک سینه خود نگه می دارند.
این مدل در مقایسه با مدل های قبلی خود دارای درک عمیق تری از تفاوت های ظریف و جزئیات است. این بدان معنی است که انتظار می رود ترجمه مفاهیم خلاقانه شما به تصاویر بسیار دقیق فرآیند روان تری باشد.
یکی از وعده های جالب DALL-E 3 یکپارچه سازی آن با آن است ChatGPT. این بدان معناست که کاربران نیازی به دست و پنجه نرم کردن با ایجاد دستورات پیچیده ندارند. یک توضیح مختصر باید کافی باشد، با ChatGPT به طرز ماهرانه ای پیام های دقیق از طرف شما ایجاد می کند.
OpenAI همچنین بر اهمیت زمینه در اعلان های طولانی تاکید کرده است. DALL-E 3 به گونه ای طراحی شده است که پرحرفی را در بر بگیرد و آن را بیشتر با زمینه توصیف شده در اعلان های گسترده هماهنگ کند.
با این حال، مانند هر مدل جدید هوش مصنوعی، یک عنصر ناشناخته وجود دارد. در حالی که اجمالی اولیه امیدوارکننده به نظر می رسد، آزمون تورنسل واقعی با استفاده طولانی همراه خواهد بود. سوالاتی در مورد کارایی و سرعت عملکرد آن وجود دارد.
این احتمال وجود دارد که DALL-E 3 یک فرآیند انتشار چند مرحله ای باشد GPT-4 به عنوان رمزگذار متن عمل می کند. مکانیک پیچیده این تنظیم ممکن است در رازداری باقی بماند.
جدول زمانی دسترسی به DALL-E 3 برای ماه اکتبر، در ابتدا برای ChatGPT به علاوه و ChatGPT کاربر سازمانیs، با امکان دسترسی گسترده تر برای محققان پس از آن.
تفاوت های ظریف و سانسور از DALL-E 3
نقطه کانونی اولیه توسعه DALL-E 3، فرآیند دقیق محدود کردن قابلیتهای آن بود. این شامل تراز و فیلترهای دقیقی بود که برای حذف انواع خاصی از محتوا طراحی شده بودند. به عنوان مثال، این مدل قاطعانه از تولید تصاویر شخصیتهای مشهور، تکرار آثار هنری به سبک هنرمندان مشهور، یا ایجاد هر محتوایی که توسط آنها ناامن تلقی میشود، امتناع میکند. OpenAIاستانداردهای برجسته این رویکرد استراتژیک فقط در مورد محدودیت ها نیست. این یک اقدام پیشگیرانه با هدف محافظت از شرکت در برابر درگیری های قانونی بالقوه است.
با این حال، فراتر از این فیلترها و هم ترازی ها، برخی مشاهدات جذاب آشکار می شوند. به نظر می رسد DALL-E 3 در تولید محتوای فوتورئالیستی از ضعف خاصی برخوردار است. بهجای تولید تصاویری که عکسهای واقعی را بیعیب و نقص تقلید میکنند، خروجی دارای کیفیتی متمایز است. این تصاویر ساخته شده با هوش مصنوعی ظاهری تقریباً رندر شده و کمی پلاستیکی دارند. حتی زمانی که صراحتاً با کلمه "عکس" خواسته می شود، نتیجه در سبک سازی مشخص خود باقی می ماند.
شایان ذکر است که علیرغم این ویژگیها، DALL-E 3 نگاهی اجمالی به پتانسیل قابلتوجهی دارد. در میان ساخته های آن، برخی از نمونه ها شباهت قابل توجهی به عکس ها دارند. به خاطر داشته باشید که رئالیسم شبیه سازی شده این تصاویر لزوماً با نحوه ظاهر شدن یک عکس واقعی از یک سوژه، به ویژه اگر در زیر آب غوطه ور شود، مطابقت ندارد.
ویژگی ها و جزئیات DALL-E 3
بیایید لحظه ای از پیکسل ها را غربال کنیم و بین خطوط را مطالعه کنیم تا بفهمیم این مدل جدید واقعا چه چیزی را ارائه می دهد.
هنر سبک سازی: نگاهی گذرا OpenAIاکانت اینستاگرام، متوجه آثار هنری فراوانی خواهید شد که با سبک سازی عالی مشخص می شود. در حالی که مجموعهای چشمگیر از ترکیببندیها و طرحهای انتزاعی وجود دارد، به نظر میرسد این مدل از تولید محتوای فوتورئالیستی دوری میکند. در اینجا تاکید بر زیبایی شناسی و خلاقیت است، نه تقلید از واقعیت.
محدودیت های هنری: DALL-E 3 مسیری متفاوت از نسخه قبلی خود در پیش گرفته است. قاطعانه از خلق تصاویری به سبک هنرمندان زنده امتناع می ورزد، یک انحراف آشکار از DALL-E 2، که می تواند سبک های هنرمندان خاصی را تقلید کند. این ممکن است ابروها را در جامعه خلاق ایجاد کند، شبیه به استقبال گرم از Stable Diffusion 2.0.
توانمندسازی هنرمندان: در اقدامی برای رعایت حقوق هنرمندان، OpenAI به هنرمندان اجازه می دهد تا آثار خود را از نسخه های آینده DALL-E حذف کنند. هنرمندان با ارسال تصویری که حقوق مربوط به آن را دارند، میتوانند درخواست حذف آن از خروجی مدل را داشته باشند. سپس تکرارهای بعدی DALL-E از تولید محتوایی شبیه به آن جلوگیری خواهد کرد سبک هنرمند.
امنیت و سانسور: OpenAIپارانویای او در مورد امنیت محسوس است. آنها با «تیمهای قرمز» خارجی برای آزمایش امنیت مدل همکاری کردهاند و از طبقهبندیکنندههای ورودی برای آموزش مدل نادیده گرفتن کلمات خاصی که میتوانند به محتوای صریح یا مضر منجر شوند، استفاده کردهاند. DALL-E 3 از بازآفرینی تصاویر خودداری می کند چهره های عمومی هنگامی که نام آنها به صراحت ذکر می شود. اینکه آیا افراد مشهور تحت این دسته قرار میگیرند، نامشخص است و به طور بالقوه بر کیفیت چهرههای تولید شده تأثیر میگذارد.
واترمارک و ردیابی: اشارهای به تعبیه برچسبها برای ردیابی «تصاویر تولید شده توسط هوش مصنوعی» وجود دارد که نشاندهنده حرکت به سمت نظارت بهتر و واترمارک کردن محتوای تولید شده است.
متن و دست ها بهبود یافته است: OpenAI touts تولید متن و رندر دستی را بهبود بخشید، ادعایی رایج در میان رقبا. آزمون واقعی در خروجی واقعی فراتر از نمونه های گیلاس چیده شده نهفته است.
درک فضایی: DALL-E 3 در درک روابط فضایی شرح داده شده در دستورات عالی است. این توانایی مدل را برای ساختن زوایای پیچیده و ترکیببندیها افزایش میدهد، اگرچه کاربران منتظر شواهد ملموستری از این وعده هستند.
قدرت اعلانات: نکته اصلی DALL-E3 در قابلیت های سریع و ادغام آن نهفته است ChatGPT. این نوید اتوماسیون، سرعت و ساده سازی طراحی سریع را می دهد. گرایش در اینجا به سمت است chatGPT ایجاد اعلان ها، ترجمه ایده های مبهم یا درخواست های ابتدایی به ایده های شیوا. درک متنی بهبود یافته DALL-E 3 فرآیند را ساده میکند و به کاربران اجازه میدهد بر قصد و نیت بیش از پرحرفی تمرکز کنند.
سرزمین های ناشناخته: به طور قابلتوجهی در بحث وجود ندارد، جنبههایی مانند نقاشی داخلی، نقاشی بیرونی، پر کردن تولیدی و مدلسازی سه بعدی. عدم وجود این ویژگی ها می تواند یک محدودیت باشد، به خصوص برای کاربرانی که به مدل های همه کاره تر عادت دارند.
جزئیات دسترسی: DALL-E 3 قرار است در دسترس قرار گیرد ChatGPT مشتریان Plus و Enterprise در اوایل اکتبر. با این حال، مشخصات در مورد تخصیص اعتبار برای ChatGPT بعلاوه کاربران و هزینه های مربوطه نامشخص هستند. دسترسی از طریق API و OpenAI پلت فرم آزمایشگاهها «در اواخر پاییز».
مهارت یکپارچه سازی: DALL-E قرار است به طور یکپارچه در محصولات شریک و مایکروسافت ادغام شود. انتظار داشته باشید که شاهد تولید ارائه ها، تصاویر، طرح ها، آرم ها، همه در زمینه و تقویت شده با کمک از ChatGPT. این ادغام قرار است به جریان اصلی تبدیل شود و چالش مهمی را برای رقبای مانند ایجاد کند گوگل با باردش و ایدئوگرام
همگرایی LLM و محتوای بصری: جذاب ترین جنبه در همگرایی مدل های زبان بزرگ (LLM) و مدل های تولید محتوای بصری نهفته است. این نشان دهنده تغییر از مهندسی سریع پیچیده به بیان ایده ها به زبانی قابل دسترس تر است. هوش مصنوعی زمینه و ایده هایی را از این عبارات استخراج می کند و امکانات خلاقانه ای را ارائه می دهد که مقاومت در برابر آنها دشوار است.
DALL-E 3: یک رهبر جدید در نسل تصویر هوش مصنوعی باشید
OpenAIتصمیم برای ادغام DALL-E 3 در ChatGPT اکوسیستم یک حرکت استراتژیک است. این ادغام به DALL-E 3 اجازه دسترسی به پایگاه داده گسترده کاربران از 100 میلیون کاربر فعال را می دهد. این مرحله به طور قابل توجهی دسترسی DALL-E 3 را افزایش می دهد و این پتانسیل را دارد که محبوبیت آن را افزایش دهد.
در حال حاضر، Midjourney و Stable Diffusion به خود ببالند 15 میلیون کاربر ثبت شده. با این حال، با این ادغام، DALL-E 3 قرار است به پایگاه کاربری ده برابر بزرگتر یعنی 100 میلیون کاربر دسترسی پیدا کند. این باعث می شود ChatGPT اشتراک پلاس برنامهریزی بسیار جذابتر است، زیرا دسترسی به ربات چت، ابزارهای تحلیلی و تولید تصویر را با قیمتی مقرون به صرفه ارائه میدهد.
ادغام نه تنها برای کاربران فعلی مفید است، بلکه به عنوان یک آهنربای قدرتمند برای کاربران جدید نیز عمل می کند. گسترش می دهد OpenAI دسترسی و محبوبیت اکوسیستم، افرادی را جذب می کند که به دنبال راه حل های محتوای تولید شده توسط هوش مصنوعی هستند.
این حرکت استراتژیک در حال افزایش است OpenAIدرآمد و سایر معیارهای کلیدی سرمایه گذاران این شرکت احتمالاً به این پیشرفت به ویژه با توجه به اخیراً نگاه مثبت خواهند داشت کاهش 20 درصدی حجم ترافیک در طول تابستان.
ادامه مطالب مرتبط را بخوانید:
رفع مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.