सितम्बर 30, 2022

टेक्स्ट-टू-3डी: गूगल ने एक तंत्रिका नेटवर्क विकसित किया है जो टेक्स्ट विवरण से 3डी मॉडल तैयार करता है

प्रकाशित: 30 सितंबर, 2022 सुबह 7:15 बजे अपडेट किया गया: 30 सितंबर, 2022 सुबह 10:54 बजे

संक्षेप में

टेक्स्ट-से-3डी तंत्रिका नेटवर्क पाठ से 3D मॉडल उत्पन्न कर सकता है

ड्रीमफ्यूजन इमेजन टेक्स्ट-टू-इमेज के आधार पर 3डी दृश्यों का अनुकूलन करता है

टेक्स्ट-टू-इमेज सिंथेसिस के लिए 2डी डिफ्यूजन मॉडल का इस्तेमाल किया जा सकता है

गूगल ने ए तंत्रिका नेटवर्क पाठ विवरण से 3D मॉडल बनाने में सक्षम। सबसे अच्छी बात यह है कि सबसे कठिन पहलू को सिखाने की जरूरत भी नहीं पड़ी। Imagen का उपयोग टेक्स्ट-टू-3D के लिए नींव के रूप में किया गया था।

टेक्स्ट-टू-3डी: गूगल ने एक तंत्रिका नेटवर्क विकसित किया है जो टेक्स्ट विवरण से 3डी मॉडल तैयार करता है

आपको इसके बारे में क्या पता होना चाहिए ड्रीमफ्यूजन?

अरबों इमेज-टेक्स्ट जोड़ियों पर प्रशिक्षित डिफ्यूजन मॉडल ने टेक्स्ट-टू-इमेज सिंथेसिस में हालिया प्रगति की है। 3डी संश्लेषण के लिए इस दृष्टिकोण को अपनाने के लिए लेबल किए गए 3डी संपत्तियों के बड़े पैमाने पर डेटासेट के साथ-साथ 3डी डेटा आर्किटेक्चर को प्रभावी ढंग से प्रदर्शित करने की आवश्यकता होगी, जिनमें से कोई भी वर्तमान में उपलब्ध नहीं है। इस पत्र में, हम पूर्व-प्रशिक्षित 3डी के साथ टेक्स्ट-टू-2डी संश्लेषण करके इन प्रतिबंधों को दूर करते हैं टेक्स्ट-टू-इमेज प्रसार नमूना। हम संभाव्यता घनत्व आसवन के आधार पर एक हानि प्रस्तुत करते हैं जो एक 2डी प्रसार मॉडल को पैरामीट्रिक अनुकूलन के लिए पूर्व के रूप में उपयोग करने की अनुमति देता है चित्र जनरेटर. इस नुकसान का उपयोग करते हुए, हम यादृच्छिक रूप से आरंभ किए गए 3D मॉडल (एक न्यूरल रेडियंस फील्ड या NeRF) को अनुकूलित करने के लिए ग्रेडिएंट डिसेंट का उपयोग करते हैं ताकि यादृच्छिक कोणों से इसके 2D रेंडरिंग में न्यूनतम नुकसान हो।

निर्दिष्ट पाठ के उत्पन्न 3D मॉडल को किसी भी कोण से देखा जा सकता है, चर प्रकाश के साथ प्रकाशित किया जा सकता है, और किसी भी 3D वातावरण में सम्मिश्रित किया जा सकता है। इसकी विधि के लिए किसी 3D प्रशिक्षण डेटा की आवश्यकता नहीं है और न ही इसमें कोई बदलाव है छवि प्रसार मॉडलपूर्व प्रशिक्षित छवि प्रसार मॉडल का उपयोग करने की प्रभावकारिता को पूर्व के रूप में दर्शाता है।

ड्रीमफ्यूजन एक कैप्शन के आधार पर उच्च-निष्ठा उपस्थिति, गहराई और मानदंडों के साथ भरोसेमंद 3डी मॉडल बनाता है। वस्तुओं को पूर्व-प्रशिक्षित के साथ न्यूरल रेडिएंस फील्ड के रूप में दर्शाया जाता है टेक्स्ट-टू-इमेज प्रसार पहले जैसे इमेजन का उपयोग किया जा रहा था।

पाठ से उत्पन्न 3D के उदाहरण

संकेत: सैक्सोफोन बजाते हुए कवच के मध्यकालीन सूट पहने एक गिलहरी की तस्वीर

संकेत: मिट्टी के कटोरे को आकार देने वाले मिट्टी के बर्तनों के चाक पर बैठी एक खूबसूरत बॉलगाउन पहने एक गिलहरी की तस्वीर

संकेत: एक मोटरसाइकिल की सवारी करते हुए एक बैंगनी हुडी पहने एक गिलहरी की अत्यधिक विस्तृत धातु की मूर्ति

संकेत: एक मध्यकालीन सूट पहने एक गिलहरी की जटिल लकड़ी की नक्काशी एक कटाना चलाने वाली

एक दृश्य बनाने के लिए वस्तुओं को एक साथ रखना

यह कैसे काम करता है?

ड्रीमफ्यूजन इमेजन टेक्स्ट-टू-इमेज जेनरेटर मॉडल का उपयोग करके कैप्शन के आधार पर एक 3डी दृश्य को अनुकूलित करता है। यह स्कोर डिस्टिलेशन सैंपलिंग (एसडीएस) का सुझाव देता है, जिसमें प्रसार मॉडल से नमूने तैयार करने के लिए हानि फ़ंक्शन को अनुकूलित करना शामिल है। जब तक हम छवियों को अलग तरीके से मैप कर सकते हैं, एसडीएस हमें किसी भी पैरामीटर स्पेस, जैसे 3डी स्पेस में नमूनों को अनुकूलित करने में सक्षम बनाता है। को defiइस विभेदित मैपिंग में, यह एक 3डी दृश्य मानकीकरण को नियोजित करता है जो न्यूरल रेडियंस फील्ड्स या एनईआरएफ के समान है। एसडीएस अकेले एक निष्क्रिय दृश्य उपस्थिति बनाता है, लेकिन ड्रीमफ्यूजन अतिरिक्त नियमितीकरणकर्ताओं और अनुकूलन तकनीकों के साथ ज्यामिति को बढ़ाता है। उत्पादित प्रशिक्षित एनईआरएफ सुसंगत हैं, उनमें उत्कृष्ट मानक, सतह ज्यामिति और गहराई है, और उन्हें लैंबर्टियन छायांकन मॉडल का उपयोग करके फिर से बनाया जा सकता है।

संबंधित लेख पढ़ें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव