VToonify: कलात्मक पोर्ट्रेट वीडियो बनाने के लिए एक रीयल-टाइम AI मॉडल
संक्षेप में
डेवलपर्स द्वारा नियंत्रित, उच्च-रिज़ॉल्यूशन पोर्ट्रेट वीडियो स्टाइल ट्रांसफर प्रदान करने के लिए एक क्रांतिकारी VToonify फ्रेमवर्क विकसित किया गया था।
आश्चर्यजनक कलात्मक चित्र बनाने के लिए, रूपरेखा StyleGAN की मध्य और उच्च-रिज़ॉल्यूशन परतों का उपयोग करती है।
यह मौजूदा StyleGAN- आधारित के विस्तार की अनुमति देता है छवि टोनिफिकेशन मॉडल वीडियो के लिए.
नानयांग टेक्नोलॉजिकल यूनिवर्सिटी के शोधकर्ताओं ने किया है एक उपन्यास VToonify फ्रेमवर्क पेश किया नियंत्रित करने योग्य उच्च-रिज़ॉल्यूशन पोर्ट्रेट वीडियो शैली हस्तांतरण उत्पन्न करने के लिए। VToonify फ्रेम विवरण को बेहतर ढंग से संरक्षित करने के लिए एन्कोडर द्वारा निकाले गए बहु-स्तरीय सामग्री सुविधाओं के आधार पर उच्च-गुणवत्ता वाले कलात्मक चित्रों को प्रस्तुत करने के लिए StyleGAN की मध्य और उच्च-रिज़ॉल्यूशन परतों का लाभ उठाता है। प्रायोगिक परिणाम बताते हैं कि हमारा ढांचा चेहरे के संरेखण या फ्रेम-आकार प्रतिबंधों की आवश्यकता के बिना लगातार उच्च गुणवत्ता और वांछित चेहरे के भाव वाले वीडियो उत्पन्न कर सकता है।
नतीजतन, एक पूरी तरह से दृढ़ वास्तुकला जो विभिन्न आकारों के वीडियो में गुटनिरपेक्ष चेहरों को स्वीकार करती है, जैविक गतियों के साथ पूर्ण चेहरे का उत्पादन करती है। रंग और तीव्रता पर लचीले शैली नियंत्रण के लिए VToonify ढांचे को इन मॉडलों की आकर्षक विशेषताएं विरासत में मिली हैं। यह मौजूदा StyleGAN-आधारित इमेज टूनिफिकेशन मॉडल के साथ संगत है ताकि उन्हें वीडियो टूनिफिकेशन तक बढ़ाया जा सके। यह कार्य क्रमशः संग्रह-आधारित और अनुकरणीय-आधारित पोर्ट्रेट वीडियो शैली हस्तांतरण के लिए VToonify के दो तात्कालिकता प्रस्तुत करता है, जो क्रमशः Toonify और DualStyleGAN पर बनाया गया है।
व्यापक प्रयोगात्मक निष्कर्ष बताते हैं कि प्रस्तावित VToonify फ्रेमवर्क उत्कृष्ट गुणवत्ता और अस्थायी रूप से सुसंगत समायोज्य शैली नियंत्रणों के साथ कलात्मक चित्र फिल्मों के निर्माण में प्रतिस्पर्धात्मक दृष्टिकोणों को मात देता है। जाँच करना GitHub अधिक जानकारी के लिए.
संबंधित लेख: OpenAI वीडियो के लिए AI मॉडल बनाने पर काम कर रहा है |
एक नियंत्रणीय उच्च-रिज़ॉल्यूशन पोर्ट्रेट वीडियो स्टाइल ट्रांसफर प्रदान करने के लिए, VToonify इमेज ट्रांसलेशन फ्रेमवर्क और StyleGAN- आधारित फ्रेमवर्क के फायदों को जोड़ता है।
(ए) परिवर्तनीय इनपुट आकार का समर्थन करने के लिए, एक छवि अनुवाद प्रणाली पूरी तरह से दृढ़ नेटवर्क का उपयोग करती है। फिर भी, शुरुआत से पढ़ाते समय उच्च-रिज़ॉल्यूशन और नियंत्रित शैली प्रदान करना चुनौतीपूर्ण होता है।
(बी) स्टाइलगैन-आधारित ढांचा, जो केवल निश्चित चित्र आकार और विवरण हानि का समर्थन करता है, उच्च-रिज़ॉल्यूशन और नियंत्रणीय शैली हस्तांतरण के लिए पूर्व-प्रशिक्षित स्टाइलगैन मॉडल का उपयोग करता है।
(सी) इमेज ट्रांसलेशन फ्रेमवर्क से मिलता-जुलता एक पूरी तरह से कन्वेन्शनल एनकोडर-जनरेटर आर्किटेक्चर बनाने के लिए, हमारा हाइब्रिड सिस्टम स्टाइलगैन को उसके फिक्स्ड-साइज़ इनपुट फीचर और लो-रिज़ॉल्यूशन लेयर्स को हटाकर बढ़ाता है।
फ्रेम विवरण को संरक्षित करने के लिए, डेवलपर्स एक अतिरिक्त सामग्री स्थिति के रूप में इनपुट फ्रेम से बहु-स्तरीय सामग्री सुविधाओं को निकालने के लिए एक एनकोडर को प्रशिक्षित करते हैं। VToonify ने StyleGAN मॉडल के स्टाइल नियंत्रण लचीलेपन को अपने डेटा और मॉडल दोनों को डिस्टिल करने के लिए जनरेटर में डालकर इनहेरिट किया है।
VToonify फ्रेमवर्क को मौजूदा स्टाइलगैन-आधारित इमेज टूनिफिकेशन मॉडल से लचीली शैली नियंत्रण के लिए आकर्षक विशेषताएं विरासत में मिली हैं और उन्हें विस्तारित करने के लिए उनके साथ संगत है वीडियो टोनीकरण. हमारा VToonify स्टाइलगैन फाउंडेशन के रूप में DualStyleGAN मॉडल का उपयोग करके निम्नलिखित प्रदान करता है:
- अनुकरणीय-आधारित संरचनाओं से शैली का स्थानांतरण;
- शैली की डिग्री में संशोधन;
- उदाहरणों के आधार पर रंग शैली का स्थानांतरण।
एआई के बारे में और पढ़ें:
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।
और अधिक लेखदामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।