नवम्बर 17/2022

एनवीडिया ने ईडिफ-I की घोषणा की: शैलियों के त्वरित हस्तांतरण के साथ पाठ और छवि संश्लेषण के लिए नई पीढ़ी एआई

प्रकाशित: 17 नवंबर, 2022 सुबह 8:30 बजे अपडेट किया गया: 17 नवंबर, 2022 सुबह 7:30 बजे

संक्षेप में

Nvidia ने व्यवसायों को उच्च-गुणवत्ता, आकर्षक चित्र बनाने में मदद करने के लिए eDiff-I लॉन्च किया

eDiff-I तकनीक नियमित रूप से DALL-E2 की तुलना में अधिक संश्लेषण गुणवत्ता उत्पन्न करती है Stable diffusion

eDiff-I एक नया AI कंटेंट क्रिएशन टूल है जो प्रदान करता है विपणक और व्यवसायों के लिए अभूतपूर्व टेक्स्ट-टू-इमेज संश्लेषण क्षमता, जैसा कि हाल ही में द्वारा घोषित किया गया है Nvidia. ईडिफ-I के साथ, व्यवसाय महंगे उपकरण या पेशेवर मदद की आवश्यकता के बिना जल्दी और आसानी से उच्च गुणवत्ता वाले, आकर्षक दृश्य बना सकते हैं। eDiff-I उपयोगकर्ता के इनपुट की व्याख्या करने और संबंधित छवियों को उत्पन्न करने के लिए प्राकृतिक भाषा प्रसंस्करण (NLP) का उपयोग करता है। एआई तब छवियों का विश्लेषण करता है और संदर्भ के आधार पर सबसे उपयुक्त चुनता है। परिणाम एक उच्च-गुणवत्ता वाली, पेशेवर दिखने वाली छवि है जिसका उपयोग विभिन्न उद्देश्यों के लिए किया जा सकता है, जैसे कि मार्केटिंग सामग्री, सोशल मीडिया पोस्ट, ईमेल अभियान, और बहुत कुछ।

ईडिफ-I एक है अगली पीढ़ी की पीढ़ी एआई सामग्री निर्माण उपकरण जो अभूतपूर्व प्रदान करता है टेक्स्ट-टू-इमेज संश्लेषण, तेज शैली हस्तांतरण, और शब्दों के साथ सहज ज्ञान युक्त पेंटिंग। पाठ से दृश्य बनाने के लिए एक प्रसार मॉडल के रूप में, eDiff-I अनुभवजन्य खोज के जवाब में विशेषज्ञ denoising नेटवर्क के एक समूह को प्रशिक्षित करने का सुझाव देता है, प्रत्येक एक विशेष शोर अंतराल के लिए विशेष है, जो नमूनाकरण के विभिन्न चरणों में प्रसार मॉडल का व्यवहार भिन्न होता है।

एनवीडिया ने ईडिफ-I की घोषणा की: शैलियों के त्वरित हस्तांतरण के साथ पाठ और छवि संश्लेषण के लिए नई पीढ़ी एआई

T5 पाठ एम्बेडिंग, CLIP छवि एम्बेडिंग और CLIP पाठ एम्बेडिंग eDiff-I अवधारणा के लिए आधार प्रदान करते हैं। यह कार्यप्रणाली किसी भी टेक्स्ट क्वेरी के जवाब में फोटोरियलिस्टिक ग्राफिक्स तैयार कर सकती है।

यह टेक्स्ट-टू-इमेज सिंथेसिस के अलावा दो अतिरिक्त क्षमताओं को प्रस्तुत करता है: (1) स्टाइल ट्रांसफर, जो हमें रेफरेंस स्टाइल इमेज का उपयोग करके उत्पन्न नमूने की शैली को नियंत्रित करने की अनुमति देता है, और (2) "पेंट विथ वर्ड्स," एक टूल जो उपयोगकर्ताओं को कैनवास पर विभाजन मानचित्रों को चित्रित करके चित्र बनाने की अनुमति देता है।

पाइपलाइन में तीन प्रसार मॉडल का एक कैस्केड होता है: एक बेस मॉडल जो 64×64 के रिज़ॉल्यूशन के साथ नमूने बना सकता है और दो सुपर-रिज़ॉल्यूशन स्टैक जो चित्रों को क्रमशः 256×256 और 1024×1024 के रिज़ॉल्यूशन में धीरे-धीरे अपसैंपल कर सकते हैं। इनपुट के रूप में कैप्शन प्राप्त करने के बाद मॉडल T5 XXL और टेक्स्ट एम्बेडिंग की गणना करते हैं। इन चित्र एम्बेडिंग का उपयोग शैली के वेक्टर के रूप में किया जा सकता है। फिर, इन एम्बेडिंग्स को हमारे कैस्केड में डालें प्रसार मॉडल, जो धीरे-धीरे 1024 x 1024 के रिज़ॉल्यूशन वाली छवियां उत्पन्न करता है।

eDiff-I दृष्टिकोण ओपन-सोर्स टेक्स्ट-टू-इमेज एल्गोरिदम की तुलना में लगातार बेहतर संश्लेषण गुणवत्ता में परिणाम देता है (Stable diffusion) और (DALL-E2)।

जब CLIP छवि एम्बेडिंग नियोजित की जाती है, तो eDiff-I दृष्टिकोण शैली हस्तांतरण की सुविधा प्रदान करता है। eDiff-I पहले निकालता है क्लिप एक संदर्भ शैली छवि से छवि एम्बेडिंग, जिसे शैली संदर्भ वेक्टर के रूप में उपयोग किया जा सकता है। नीचे दिए गए बाएं पैनल में एक शैलीगत संदर्भ देखा जा सकता है। स्टाइल कंडीशनिंग चालू होने पर परिणाम केंद्र पैनल में प्रदर्शित होते हैं। स्टाइल कंडीशनिंग बंद होने पर परिणाम दाईं ओर पैनल में प्रदर्शित होते हैं। जब स्टाइल कंडीशनिंग लागू की जाती है, तो eDiff-I मॉडल ऐसे आउटपुट बनाता है जो इनपुट कैप्शन की शैली के लिए भी सही होते हैं। जब स्टाइल कंडीशनिंग बंद हो जाती है, तो प्राकृतिक दिखने वाली तस्वीरें बनती हैं।

वाक्यांशों को चुनकर और उन्हें छवि पर लिखकर, eDiff-I पद्धति के उपयोगकर्ता टेक्स्ट प्रॉम्प्ट में सूचीबद्ध चीज़ों के स्थान को बदल सकते हैं। उसके बाद, मॉडल का उपयोग करता है छवियाँ बनाने के लिए संकेत और मानचित्र जो कैप्शन और इनपुट मैप दोनों के साथ संगत हैं।

संबंधित लेख पढ़ें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव