नवम्बर 24/2022

Stability AIहै Stable Diffusion 2 एल्गोरिथम अंततः सार्वजनिक है: नया डेप्थ2आईएमजी मॉडल, सुपर-रिज़ॉल्यूशन अपस्केलर, कोई वयस्क सामग्री नहीं

by दामिर यालालोव

प्रकाशित: 24 नवंबर, 2022 पूर्वाह्न 3:18 बजे अद्यतन: 21 मार्च, 2024 पूर्वाह्न 11:41 बजे

by विक्टर डे

संपादित और तथ्य-जांचा गया: 24 नवंबर, 2022 सुबह 3:18 बजे

संक्षेप में

Stable Diffusion 2.0 मॉडल पिछले मॉडल की तुलना में तेज़, खुला स्रोत, स्केलेबल और अधिक मजबूत है

Stable Diffusion वास्तविक समय प्रतिपादन के लिए नई सुविधाओं के साथ GPU-तैयार हो जाता है

गहराई निर्देशित stable diffusion आदर्श - रचनात्मक अनुप्रयोगों के लिए नए विचारों के साथ छवि-से-छवि

Stability AI है रिहा इसके बारे में ब्लॉग पर एक नया पेपर Stable Diffusion 2. इसमें, Stability AI एक नया एल्गोरिदम प्रस्तावित करता है जो अन्य अत्याधुनिक तरीकों के मुकाबले बेंचमार्क करते हुए पिछले वाले की तुलना में अधिक कुशल और मजबूत है।

AI खोलें Stable Diffusion 2 एल्गोरिथम अंततः सार्वजनिक है: नया डेप्थ2आईएमजी मॉडल, सुपर-रिज़ॉल्यूशन अपस्केलर, कोई वयस्क सामग्री नहीं

कॉम्पविस का मूल Stable Diffusion V1 मॉडल क्रांति ला दी ओपन-सोर्स की प्रकृति एआई मॉडल और दुनिया भर में सैकड़ों विभिन्न मॉडलों और अग्रिमों का उत्पादन किया। इसने 10,000 जीथब सितारों पर सबसे तेज चढ़ाई देखी, दो महीने से भी कम समय में 33,000 की रैकिंग की, जीथब पर अधिक कार्यक्रमों की तुलना में तेजी से।

मूल Stable Diffusion V1 रिलीज़ का नेतृत्व रॉबिन रोम्बाच की गतिशील टीम ने किया था (Stability AI) और एलएमयू म्यूनिख में कॉम्पविस ग्रुप से पैट्रिक एसेर (रनवे एमएल), प्रोफेसर डॉ. ब्योर्न ओमर के नेतृत्व में। उन्होंने लैटेंट के साथ लैब के पिछले काम को आगे बढ़ाया प्रसार मॉडल और LAION और Eleuther AI से महत्वपूर्ण समर्थन प्राप्त किया।

क्या बनाता है Stable Diffusion v1 से भिन्न Stable Diffusion v2?

Stable Diffusion 2.0 में पिछले संस्करण की तुलना में कई महत्वपूर्ण संवर्द्धन और सुविधाएँ शामिल हैं, तो आइए उन पर एक नज़र डालें।

RSI Stable Diffusion 2.0 रिलीज़ में मजबूत टेक्स्ट-टू-इमेज मॉडल शामिल हैं, जिन्हें LAION की सहायता से विकसित नए टेक्स्ट एनकोडर (ओपनसीएलआईपी) से प्रशिक्षित किया गया है। Stability AI, जो की गुणवत्ता को महत्वपूर्ण रूप से बढ़ाता है उत्पन्न छवियाँ पिछले V1 रिलीज से अधिक। इस रिलीज़ के टेक्स्ट-टू-इमेज मॉडल 512×512 पिक्सेल और 768×768 पिक्सेल के डिफ़ॉल्ट रिज़ॉल्यूशन वाली इमेज आउटपुट कर सकते हैं।

इन मॉडलों को LAION-5B डेटासेट द्वारा उत्पन्न सौंदर्य उपसमुच्चय का उपयोग करके प्रशिक्षित किया जाता है Stability AIकी डीपफ्लोयड टीम, जिसे LAION के NSFW फ़िल्टर का उपयोग करके वयस्क सामग्री को बाहर करने के लिए फ़िल्टर किया जाता है।

50 डीडीआईएम नमूना चरणों, 50 क्लासिफायर-फ्री गाइडिंग स्केल, और 1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, और 8.0 का उपयोग करके मूल्यांकन चेकपॉइंट्स के सापेक्ष सुधार दर्शाता है:

क्या बनाता है Stable Diffusion v1 से भिन्न Stable Diffusion v2?

Stable Diffusion 2.0 में अब एक अपस्केलर डिफ्यूजन मॉडल शामिल है, जो छवि रिज़ॉल्यूशन को चार गुना बढ़ा देता है। हमारे मॉडल का एक उदाहरण आकार बढ़ाए जाने निम्न-गुणवत्ता वाली उत्पन्न छवि (128×128) को उच्च रिज़ॉल्यूशन वाली छवि में नीचे (512×512) दिखाया गया है। Stable Diffusion 2.0, हमारे टेक्स्ट-टू-इमेज मॉडल के साथ संयुक्त होने पर, अब 2048×2048 या उससे अधिक के रिज़ॉल्यूशन वाली छवियां उत्पन्न कर सकता है।

नई गहराई निर्देशित stable diffusion आदर्श, डेप्थ2आईएमजी, पूरी तरह से नई रचनात्मक संभावनाओं के साथ वी1 से पूर्व इमेज-टू-इमेज फीचर का विस्तार करता है। Depth2img एक इनपुट छवि की गहराई निर्धारित करता है (मौजूदा मॉडल का उपयोग करके) और फिर नया उत्पन्न करता है छवियों पाठ और गहन जानकारी दोनों के आधार पर। डेप्थ-टू-इमेज नए रचनात्मक अनुप्रयोगों की अधिकता प्रदान कर सकता है, जो छवि की सुसंगतता और गहराई को बनाए रखते हुए मूल से काफी भिन्न प्रतीत होने वाले परिवर्तनों की पेशकश करता है।

इसमें नया क्या है Stable Diffusion 2?

नई stable diffusion आदर्श 768 × 768 रिज़ॉल्यूशन प्रदान करता है।
U-Net में संस्करण 1.5 के समान ही पैरामीटर हैं, लेकिन इसे स्क्रैच से प्रशिक्षित किया गया है और OpenCLIP-ViT/H को इसके टेक्स्ट एनकोडर के रूप में उपयोग करता है। एक तथाकथित वी-भविष्यवाणी मॉडल एसडी 2.0-वी है।
पूर्वोक्त मॉडल को एसडी 2.0-बेस से समायोजित किया गया था, जिसे उपलब्ध भी कराया गया है और 512 × 512 छवियों पर एक विशिष्ट शोर-भविष्यवाणी मॉडल के रूप में प्रशिक्षित किया गया था।
x4 स्केलिंग के साथ एक अव्यक्त पाठ-निर्देशित प्रसार मॉडल जोड़ा गया है।
परिष्कृत एसडी 2.0-बेस गहराई-निर्देशित stable diffusion आदर्श. मॉडल का उपयोग संरचना-संरक्षण img2img और आकार-सशर्त संश्लेषण के लिए किया जा सकता है और यह MiDaS द्वारा निकाले गए मोनोकुलर गहराई अनुमानों पर आधारित है।
SD 2.0 नींव पर निर्मित एक बेहतर पाठ-निर्देशित पेंटिंग मॉडल।

डेवलपर्स ने शुरुआती पुनरावृत्ति की तरह ही कड़ी मेहनत की Stable Diffusion, मॉडल को एक ही जीपीयू पर चलाने के लिए अनुकूलित करने के लिए—वे शुरू से ही इसे अधिक से अधिक लोगों के लिए सुलभ बनाना चाहते थे। वे पहले ही देख चुके हैं कि क्या होता है जब लाखों लोग इन मॉडलों को हाथ में लेते हैं और बिल्कुल उल्लेखनीय चीजें बनाने के लिए सहयोग करते हैं। यह खुले स्रोत की शक्ति है: लाखों प्रतिभाशाली लोगों की विशाल क्षमता का उपयोग करना, जिनके पास अत्याधुनिक मॉडल को प्रशिक्षित करने के लिए संसाधन नहीं हो सकते हैं, लेकिन एक के साथ अविश्वसनीय चीजें करने की क्षमता है।

यह नया अपडेट, डेप्थ2आईएमजी जैसी शक्तिशाली नई विशेषताओं और बेहतर रिज़ॉल्यूशन अपस्केलिंग क्षमताओं के साथ मिलकर, नए अनुप्रयोगों की अधिकता के लिए नींव के रूप में काम करेगा और नई रचनात्मक क्षमता के विस्फोट को सक्षम करेगा।

पर और अधिक पढ़ें Stable Diffusion:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव