सितम्बर 21, 2023

DALL-E 3 रिलीज़ को बढ़ाता है OpenAIका प्रभाव, छोड़ना Midjourney और Stable Diffusion पीछे

by दामिर यालालोव

प्रकाशित: 21 सितंबर, 2023 सुबह 4:29 बजे अपडेट किया गया: 22 मार्च 2024 सुबह 11:17 बजे

by डेनिल मायकिन

संपादित और तथ्य-जांचा गया: 21 सितंबर, 2023 सुबह 4:29 बजे

संक्षेप में

DALL-E 3 को सहजता से एकीकृत करने की तैयारी है GPT-4, विशेष रूप से के लिए तैयार किया गया ChatGPT+ ग्राहक।

DALL-E 3 सार्वजनिक हस्तियों की छवियों को दोबारा बनाने से परहेज करता है जब उनके नामों का स्पष्ट रूप से उल्लेख किया जाता है।

DALL-E 3 तक पहुंच की समयसीमा अक्टूबर निर्धारित की गई है।

OpenAI ने अपनी नवीनतम रचना का अनावरण किया है: दाल-ई 3. अपने पूर्ववर्तियों के विपरीत, DALL-E 3 छोटी-छोटी बातों को परिष्कृत करने, अक्षरों और अंगुलियों जैसे जटिल शारीरिक विवरण जैसे मुद्दों को संबोधित करने पर केंद्रित है। परिणाम? जटिल संकेतों या समाधानों की आवश्यकता के बिना सौंदर्य की दृष्टि से मनभावन छवियों की एक श्रृंखला।

DALL-E 3 रिलीज़ को बढ़ाता है OpenAIका प्रभाव, छोड़ना Midjourney और Stable Diffusion पीछे

यह ध्यान रखना महत्वपूर्ण है कि यह रिलीज़ कार्यान्वयन विवरण, लेख या एपीआई के व्यापक सेट के साथ नहीं आती है। इसके बजाय, DALL-E 3 को सहजता से एकीकृत करने की तैयारी है GPT-4, विशेष रूप से के लिए तैयार किया गया ChatGPT+ ग्राहक।

यह विकास एआई परिदृश्य में एक भूकंपीय बदलाव नहीं हो सकता है, बल्कि मॉडलों के बीच सहयोग में एक कदम आगे है। कई लोग यह आशा करते हैं कि अगला Stable Diffusion आदर्श और भी अधिक परिष्कार और कलात्मक अपील प्रदान करेगा।

इसे संदर्भ में रखने के लिए, OpenAIएआई छवि निर्माण के माध्यम से की यात्रा काफी कठिन रही है:

2021: DALL-E 1, एक 12 बिलियन पैरामीटर मॉडल, सीमित जानकारी के साथ पेश किया गया था।
2021: GLIDE, एक 2-बिलियन पैरामीटर मॉडल, का अनावरण ओपन-सोर्स 300-मिलियन पैरामीटर मॉडल के साथ किया गया था।
2022: DALL-E 2, 2 बिलियन मापदंडों को स्पोर्ट करते हुए, एक अनक्लिप पेपर और एपीआई के साथ आया।
2023: DALL-E 3 ने अपना प्रवेश द्वार बना लिया है, और हालांकि विवरण कुछ हद तक गूढ़ हो सकते हैं, एक बात स्पष्ट है - यह इसके साथ एकीकृत होगा GPT-4 एसटी ChatGPT+ ग्राहक।

अभी तक, DALL-E 3 के दृश्य कुछ हद तक दुर्लभ हैं। अत्याधुनिक (एसओटीए) के साथ कोई कोडबेस, ब्लॉग पोस्ट या विस्तृत तुलना नहीं है। OpenAI ऐसा प्रतीत होता है कि वे अपने कार्ड अपने सीने के पास रखते हैं।

यह मॉडल अपने पूर्ववर्तियों की तुलना में बारीकियों और विवरणों की गहरी समझ रखता है। इसका मतलब है कि आपकी रचनात्मक अवधारणाओं को अत्यधिक सटीक छवियों में अनुवाद करना एक आसान प्रक्रिया होने की उम्मीद है।

DALL-E 3 का एक दिलचस्प वादा इसका एकीकरण है ChatGPT. इसका तात्पर्य यह है कि उपयोगकर्ताओं को जटिल संकेत तैयार करने से जूझने की आवश्यकता नहीं होगी; एक संक्षिप्त विवरण पर्याप्त होना चाहिए ChatGPT आपकी ओर से कुशलतापूर्वक विस्तृत संकेत तैयार करना।

OpenAI लंबे संकेतों में संदर्भ के महत्व पर भी जोर दिया गया है। DALL-E 3 को वाचालता को अपनाने के लिए डिज़ाइन किया गया है, जिससे यह व्यापक संकेतों में वर्णित संदर्भ के अनुरूप हो जाता है।

फिर भी, किसी भी नए एआई मॉडल की तरह, इसमें अज्ञात का एक तत्व है। हालाँकि शुरुआती झलकियाँ आशाजनक लगती हैं, वास्तविक लिटमस टेस्ट विस्तारित उपयोग के साथ आएगा। इसकी कार्यकुशलता और संचालन की गति को लेकर सवाल उठते रहते हैं।

यह संभावना है कि DALL-E 3 एक बहु-चरणीय प्रसार प्रक्रिया होगी GPT-4 टेक्स्ट एनकोडर के रूप में कार्य करना। इस सेटअप की जटिल यांत्रिकी रहस्य में छिपी रह सकती है।

DALL-E 3 तक पहुंच की समयसीमा प्रारंभ में अक्टूबर के लिए निर्धारित की गई है ChatGPT प्लस और ChatGPT एंटरप्राइज़ उपयोगकर्ताइसके बाद शोधकर्ताओं के लिए व्यापक पहुंच की संभावना के साथ।

सम्बंधित: OpenAIएआई के जोखिमों पर चर्चा करने के लिए अमेरिकी सीनेट में ऑल्टमैन

बारीकियों और सेंसरशिप DALL-E 3 का

DALL-E 3 के विकास का प्राथमिक केंद्र बिंदु इसकी क्षमताओं पर अंकुश लगाने की सावधानीपूर्वक प्रक्रिया थी। इसमें विशिष्ट प्रकार की सामग्री को बाहर करने के लिए डिज़ाइन किए गए कड़े संरेखण और फ़िल्टर शामिल थे। उदाहरण के लिए, मॉडल प्रसिद्ध हस्तियों की छवियां बनाने, प्रसिद्ध कलाकारों की शैली में कलाकृतियों को दोहराने, या असुरक्षित समझी जाने वाली कोई भी सामग्री बनाने से दृढ़ता से इनकार करता है। OpenAIके समझदार मानक। यह रणनीतिक दृष्टिकोण केवल सीमाओं के बारे में नहीं है; यह एक सक्रिय उपाय है जिसका उद्देश्य कंपनी को संभावित कानूनी उलझनों से बचाना है।

फिर भी, इन फ़िल्टर और संरेखण से परे, कुछ दिलचस्प अवलोकन सामने आते हैं। जब फोटोयथार्थवादी सामग्री उत्पन्न करने की बात आती है तो DALL-E 3 एक निश्चित कमजोरी प्रदर्शित करता प्रतीत होता है। वास्तविक तस्वीरों की त्रुटिहीन नकल करने वाली छवियां बनाने के बजाय, आउटपुट में एक विशिष्ट शैलीगत गुणवत्ता होती है। ये एआई-निर्मित तस्वीरें लगभग रेंडर की गई और थोड़ी प्लास्टिक जैसी दिखती हैं। यहां तक कि जब स्पष्ट रूप से "फोटोग्राफ" शब्द के साथ संकेत दिया जाता है, तो परिणाम इसकी विशिष्ट शैली में निहित रहता है।

शीघ्र # 1 — संकेत #1: गीली रेत में बसे एक साधु केकड़े की क्लोज़-अप तस्वीर, जिसके पास समुद्री झाग है और उसके खोल और रेत की बनावट का विवरण स्पष्ट है।

शीघ्र # 2 — संकेत #2: एक आरामदायक बैठक कक्ष में केले के आकार का एक चमकीला सोफा रखा हुआ है, जिसके मोड़ पर रंगीन तकियों का ढेर लगा हुआ है। लकड़ी के फर्श पर, एक पैटर्न वाला गलीचा उदार आकर्षण का स्पर्श जोड़ता है, और एक गमले में लगा पौधा कोने में बैठा है, जो खिड़की से छनकर आती सूरज की रोशनी की ओर पहुँच रहा है।

शीघ्र # 3 — संकेत #3: समुद्र तल पर बसे एक प्राचीन जहाज़ के मलबे की तस्वीर। समुद्री पौधों ने लकड़ी की संरचना पर दावा किया है, और मछलियाँ इसके खोखले स्थानों में और बाहर तैरती हैं। चारों ओर बिखरे हुए खजाने और पुरानी तोपें अतीत की झलक देती हैं।

यह ध्यान देने योग्य है कि इन विशिष्टताओं के बावजूद, DALL-E 3 उल्लेखनीय क्षमता की झलक पेश करता है। इसकी रचनाओं में, कुछ उदाहरण तस्वीरों के साथ एक अद्भुत समानता प्रदर्शित करते हैं। यह ध्यान में रखें कि इन छवियों का सिम्युलेटेड यथार्थवाद आवश्यक रूप से इस बात से मेल नहीं खाता है कि एक ही विषय की वास्तविक तस्वीर कैसी दिखाई देगी, खासकर अगर पानी के नीचे डूबी हुई हो।

सम्बंधित: Microsoft ने डिज़ाइनर का अनावरण किया, जो DALL-E 2 पर आधारित पहला पेशेवर टेक्स्ट-टू-इमेज टूल है

DALL-E 3 विशेषताएँ और विवरण

आइए एक पल के लिए पिक्सेल को छानें और पंक्तियों के बीच में पढ़ें यह समझने के लिए कि यह नया मॉडल वास्तव में क्या प्रदान करता है।

शैलीकरण की कला: नज़र दौड़ाना OpenAIका इंस्टाग्राम अकाउंट, आप उत्कृष्ट शैलीकरण द्वारा चित्रित कलाकृति की प्रचुरता देखेंगे। हालाँकि इसमें अमूर्त रचनाओं और डिज़ाइनों की एक प्रभावशाली श्रृंखला है, लेकिन ऐसा प्रतीत होता है कि मॉडल फोटोरिअलिस्टिक सामग्री का उत्पादन करने से बच रहा है। यहां जोर सौंदर्यशास्त्र और रचनात्मकता पर है, वास्तविकता की नकल पर नहीं।

कलात्मक बाधाएँ: DALL-E 3 अपने पूर्ववर्ती से अलग रास्ता अपनाता है। यह जीवित कलाकारों की शैली में छवियां बनाने से इनकार करता है, जो कि DALL-E 2 से बिल्कुल अलग है, जो कुछ कलाकारों की शैलियों की नकल कर सकता है। यह रचनात्मक समुदाय में भौहें चढ़ा सकता है, जैसा कि गुनगुना स्वागत है Stable Diffusion 2.0.

कलाकारों को सशक्त बनाना: कलाकारों के अधिकारों का सम्मान करने के एक कदम में, OpenAI कलाकारों को भविष्य के DALL-E संस्करणों से उनके काम को बाहर करने की अनुमति देता है। एक छवि सबमिट करके जिसके अधिकार उनके पास हैं, कलाकार मॉडल के आउटपुट से इसे बाहर करने का अनुरोध कर सकते हैं। DALL-E के भविष्य के पुनरावृत्तियों से मिलती-जुलती सामग्री उत्पन्न करने से बचा जा सकेगा कलाकार की शैली.

सुरक्षा और सेंसरशिप: OpenAIसुरक्षा को लेकर लोगों का व्याकुलता स्पष्ट है। उन्होंने मॉडल की सुरक्षा का परीक्षण करने के लिए बाहरी "रेड टीमों" के साथ सहयोग किया है और मॉडल को उन विशिष्ट शब्दों को अनदेखा करने के लिए सिखाने के लिए इनपुट क्लासिफायर का उपयोग किया है जो स्पष्ट या हानिकारक सामग्री का कारण बन सकते हैं। DALL-E 3 की छवियों को दोबारा बनाने से परहेज करता है लोकप्रिय हस्ती जब उनके नामों का स्पष्ट रूप से उल्लेख किया गया हो. क्या मशहूर हस्तियाँ इस श्रेणी में आती हैं, यह अनिश्चित बना हुआ है, संभावित रूप से उत्पन्न चेहरों की गुणवत्ता पर असर पड़ रहा है।

वॉटरमार्क और ट्रैकिंग: "एआई-जनरेटेड छवियों" को ट्रैक करने के लिए टैग के एम्बेडिंग पर एक संकेत है, जो बेहतर निगरानी और संभावित रूप से वॉटरमार्किंग उत्पन्न सामग्री की दिशा में एक कदम का संकेत देता है।

पाठ और हाथ में सुधार हुआ: OpenAI दलालों ने पाठ निर्माण और हस्त प्रतिपादन में सुधार किया, जो प्रतिस्पर्धियों के बीच एक आम दावा है। वास्तविक परीक्षा चेरी द्वारा चुने गए उदाहरणों से परे वास्तविक आउटपुट में निहित है।

स्थानिक समझ: DALL-E 3 संकेतों में वर्णित स्थानिक संबंधों को समझने में उत्कृष्ट है। यह जटिल कोणों और रचनाओं के निर्माण के लिए मॉडल की क्षमता को बढ़ाता है, हालांकि उपयोगकर्ता इस वादे के अधिक ठोस सबूत की प्रतीक्षा करते हैं।

संकेतों की शक्ति: का सार दाल-ई 3 इसकी त्वरित क्षमताओं और एकीकरण में निहित है ChatGPT. यह स्वचालन, गति और त्वरित डिजाइन के सरलीकरण का वादा करता है। यहाँ रुझान की ओर है chatGPT संकेत उत्पन्न करना, अस्पष्ट विचारों या अल्पविकसित संकेतों का वाक्पटु विचारों में अनुवाद करना। DALL-E 3 की बेहतर प्रासंगिक समझ प्रक्रिया को सुव्यवस्थित करती है, जिससे उपयोगकर्ता वाचालता के बजाय इरादे पर ध्यान केंद्रित कर सकते हैं।

अज्ञात क्षेत्र: इनपेंटिंग, आउटपेंटिंग, जेनरेटिव फिल और 3डी मॉडलिंग जैसे पहलू चर्चा से विशेष रूप से अनुपस्थित हैं। इन सुविधाओं की अनुपस्थिति एक सीमा हो सकती है, खासकर अधिक बहुमुखी मॉडल के आदी उपयोगकर्ताओं के लिए।

प्रवेश विवरण: DALL-E 3 उपलब्ध होने के लिए तैयार है ChatGPT अक्टूबर की शुरुआत में प्लस और एंटरप्राइज़ ग्राहक। हालाँकि, क्रेडिट के आवंटन के संबंध में विशिष्टताएँ ChatGPT साथ ही उपयोगकर्ता और संबंधित लागतें अस्पष्ट बनी हुई हैं। एपीआई और के माध्यम से पहुंच प्रदान की जाएगी OpenAI लैब्स प्लेटफ़ॉर्म "बाद में गिरावट में।"

एकीकरण कौशल: DALL-E को साझेदार और Microsoft उत्पादों में निर्बाध रूप से एकीकृत करने की तैयारी है। प्रस्तुतियों, चित्रों, डिज़ाइनों, लोगो की पीढ़ी को देखने की अपेक्षा करें, सभी संदर्भ में और सहायता से प्रवर्धित ChatGPT. यह एकीकरण मुख्यधारा बनने के लिए तैयार है, जो प्रतिस्पर्धियों के लिए एक महत्वपूर्ण चुनौती पेश करेगा गूगल अपने बार्ड के साथ और आइडियोग्राम.

एलएलएम और दृश्य सामग्री का अभिसरण: सबसे दिलचस्प पहलू बड़े भाषा मॉडल (एलएलएम) और दृश्य सामग्री निर्माण मॉडल के अभिसरण में निहित है। यह जटिल प्रॉम्प्ट इंजीनियरिंग से विचारों को अधिक सुलभ भाषा में व्यक्त करने की ओर बदलाव का प्रतीक है। एआई इन अभिव्यक्तियों से संदर्भ और विचार प्राप्त करेगा, रचनात्मक संभावनाएं प्रदान करेगा जिनका विरोध करना कठिन है।

सम्बंधित: एआई आर्ट जेनरेटर के लिए शीर्ष 50 टेक्स्ट-टू-इमेज संकेत Midjourney और DALL-ई

DALL-E 3: AI छवि निर्माण में एक नए नेता बनें

OpenAIDALL-E 3 को इसमें एकीकृत करने का निर्णय ChatGPT पारिस्थितिकी तंत्र एक रणनीतिक कदम है। यह एकीकरण DALL-E 3 को 100 मिलियन सक्रिय उपयोगकर्ताओं के विशाल उपयोगकर्ता डेटाबेस तक पहुंच प्रदान करता है। यह कदम DALL-E 3 की पहुंच को महत्वपूर्ण रूप से बढ़ाता है और इसकी लोकप्रियता को बढ़ाने की क्षमता रखता है।

वर्तमान में, Midjourney और Stable Diffusion चारों ओर घमंड करना 15 मिलियन पंजीकृत उपयोगकर्ता. हालाँकि, इस एकीकरण के साथ, DALL-E 3 दस गुना बड़े उपयोगकर्ता आधार - 100 मिलियन उपयोगकर्ताओं तक पहुंच प्राप्त करने के लिए तैयार है। यह बनाता है ChatGPT प्लस सदस्यता योजना और भी अधिक आकर्षक है, क्योंकि यह किफायती मूल्य पर चैटबॉट, विश्लेषणात्मक उपकरण और छवि निर्माण तक पहुंच प्रदान करता है।

एकीकरण न केवल मौजूदा उपयोगकर्ताओं के लिए फायदेमंद है बल्कि नए उपयोगकर्ताओं के लिए एक शक्तिशाली चुंबक के रूप में भी कार्य करता है। इसका विस्तार होता है OpenAI पारिस्थितिकी तंत्र की पहुंच और लोकप्रियता, उन व्यक्तियों को आकर्षित करती है जो एआई-जनित सामग्री समाधान चाहते हैं।

यह रणनीतिक कदम बढ़ावा देने के लिए तैयार है OpenAIका राजस्व और अन्य प्रमुख मेट्रिक्स। कंपनी के निवेशक संभवतः इस विकास को अनुकूल रूप से देखेंगे, विशेषकर हाल की घटनाओं के आलोक में यातायात की मात्रा में 20% की गिरावट गर्मियों के दौरान।

ChatGPT सितंबर में वेब ट्रैफ़िक में 20% की गिरावट आई है और लगातार गिरावट जारी है

अधिक संबंधित विषय पढ़ें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव