मार्च २०,२०२१

नया टेक्स्ट-टू-इमेज मॉडल GigaGAN 4s में 3.66K इमेज जेनरेट कर सकता है

प्रकाशित: मार्च 20, 2023 प्रातः 4:10 बजे अद्यतन: मार्च 20, 2023 प्रातः 4:11 बजे

संक्षेप में

शोधकर्ताओं ने GigaGAN नामक एक नया टेक्स्ट-टू-इमेज मॉडल विकसित किया है जो 4 सेकंड में 3.66K इमेज जेनरेट कर सकता है।

यह GAN (जनरेटिव एडवरसैरियल नेटवर्क) फ्रेमवर्क पर आधारित है, जो एक प्रकार है तंत्रिका नेटवर्क जो प्रशिक्षण डेटासेट के समान डेटा उत्पन्न करना सीख सकता है। GigaGAN 512 सेकंड में 0.13px छवियां उत्पन्न करने में सक्षम है, जो पिछले अत्याधुनिक मॉडल की तुलना में 10 गुना तेज है, और इसमें एक सुलझा हुआ, निरंतर और नियंत्रणीय अव्यक्त स्थान है।

इसका उपयोग कुशल, उच्च-गुणवत्ता वाले अपसैंपलर को प्रशिक्षित करने के लिए भी किया जा सकता है।

शोधकर्ताओं ने एक नया टेक्स्ट-टू-इमेज मॉडल विकसित किया है जिसे कहा जाता है गीगागन जो पैदा कर सके 4K छवियाँ 3.66 सेकंड में। यह मौजूदा पाठ-से-छवि मॉडल पर एक बड़ा सुधार है, जिसमें एक छवि उत्पन्न करने में मिनट या घंटे भी लग सकते हैं।

नया टेक्स्ट-टू-इमेज मॉडल GigaGAN 4s पर 3.66K इमेज जेनरेट कर सकता है

GigaGAN GAN (जनरेटिव एडवरसैरियल नेटवर्क) फ्रेमवर्क पर आधारित है, जो एक प्रकार का न्यूरल नेटवर्क है जो प्रशिक्षण डेटासेट के समान डेटा उत्पन्न करना सीख सकता है। GANs का उपयोग चेहरों, परिदृश्यों और यहां तक कि सड़क दृश्य छवियों की यथार्थवादी छवियां उत्पन्न करने के लिए किया गया है।

अधिक पढ़ें: 5 के 2023+ बहुप्रतीक्षित टेक्स्ट-टू-इमेज एआई मॉडल

नए मॉडल को 1 बिलियन छवियों के डेटासेट पर प्रशिक्षित किया गया है, जो पहले के टेक्स्ट-टू-इमेज मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटासेट की तुलना में बड़े परिमाण का ऑर्डर है। नतीजतन, GigaGAN 512 सेकंड में 0.13px इमेज जेनरेट करने में सक्षम है, जो पिछले अत्याधुनिक टेक्स्ट-टू-इमेज मॉडल की तुलना में 10 गुना अधिक तेज है।

इसके अलावा, GigaGAN एक अव्यवस्थित, निरंतर और नियंत्रणीय अव्यक्त स्थान के साथ आता है। इसका मतलब यह है कि GigaGAN ऐसी छवियां उत्पन्न कर सकता है जिनमें विभिन्न प्रकार की शैलियाँ हों, और यह कि उत्पन्न छवियों को कुछ हद तक नियंत्रित किया जा सकता है। उदाहरण के लिए, GigaGAN ऐसी छवियां उत्पन्न कर सकता है जो पाठ इनपुट के लेआउट को संरक्षित करती हैं, जो कि अनुप्रयोगों के लिए महत्वपूर्ण है, उदाहरण के लिए, पाठ विवरण से उत्पाद लेआउट की छवियां बनाते समय।

GigaGAN का उपयोग एक कुशल, उच्च-गुणवत्ता वाले अपसैंपलर को प्रशिक्षित करने के लिए भी किया जा सकता है। इसे वास्तविक छवियों या अन्य के आउटपुट पर लागू किया जा सकता है टेक्स्ट-टू-इमेज मॉडल.

एक टेक्स्ट एन्कोडिंग शाखा, स्टाइल मैपिंग नेटवर्क, मल्टी-स्केल सिंथेसिस नेटवर्क, और स्थिर ध्यान और अनुकूली कर्नेल चयन GigaGAN जनरेटर का हिस्सा हैं। डेवलपर्स पूर्व-प्रशिक्षित CLIP मॉडल और सीखी गई ध्यान परतों T के साथ टेक्स्ट एम्बेडिंग को निकालकर टेक्स्ट एन्कोडिंग शाखा शुरू करते हैं। इसी तरह स्टाइलगन, एम्बेडिंग को स्टाइल मैपिंग नेटवर्क M को पास किया जाता है, जो स्टाइल वेक्टर w उत्पन्न करता है। एक छवि पिरामिड उत्पन्न करने के लिए, संश्लेषण नेटवर्क अब शैली कोड को मॉडुलन के रूप में और पाठ एम्बेडिंग को ध्यान के रूप में उपयोग करता है। इसके अलावा, डेवलपर्स इनपुट टेक्स्ट कंडीशनिंग के आधार पर कनवल्शन कर्नेल का चयन करने के लिए नमूना-अनुकूली कर्नेल चयन पेश करते हैं।

विवेचक, जनरेटर की तरह, छवि और पाठ कंडीशनिंग को संसाधित करने के लिए दो शाखाएँ हैं। पाठ शाखा, जनरेटर की तरह, पाठ को संसाधित करती है। छवि शाखा को एक छवि पिरामिड दिया जाता है और प्रत्येक छवि पैमाने के लिए स्वतंत्र भविष्यवाणियां करने का काम सौंपा जाता है। इसके अलावा, भविष्यवाणियां बाद के सभी डाउनसैंपलिंग परत पैमानों पर की जाती हैं। प्रभावी अभिसरण को प्रोत्साहित करने के लिए अतिरिक्त नुकसान का भी उपयोग किया जाता है।

जैसा कि इंटरपोलेशन ग्रिड में दिखाया गया है, GigaGAN संकेतों के बीच सहज इंटरपोलेशन की अनुमति देता है। चार कोनों को एक ही गुप्त z का उपयोग करके बनाया गया है लेकिन अलग-अलग पाठ संकेत देता है।

क्योंकि GigaGAN एक अव्यक्त अव्यक्त स्थान को संरक्षित करता है, डेवलपर्स एक नमूने की मोटे शैली को दूसरे की ठीक शैली के साथ जोड़ सकते हैं। GigaGAN सीधे टेक्स्ट प्रॉम्प्ट के साथ स्टाइल को भी नियंत्रित कर सकता है।

अधिक संबंधित लेख पढ़ें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव