नवम्बर 03/2023

टेक्स्ट-टू-3डी एआई मॉडल

प्रकाशित: 03 नवंबर, 2023 पूर्वाह्न 9:21 बजे अद्यतन: 05 नवंबर, 2023 अपराह्न 12:09 बजे

टेक्स्ट-टू-3डी एआई मॉडल क्या है?

टेक्स्ट-टू-3डी एआई मॉडल एक ऐसी तकनीक है जो पाठ्य विवरण या निर्देशों को त्रि-आयामी (3डी) दृश्य प्रतिनिधित्व या मॉडल में अनुवादित करती है। यह एआई मॉडल पाठ्य इनपुट ले सकता है, जो वस्तुओं, दृश्यों या अवधारणाओं का वर्णन कर सकता है और इसे संबंधित 3डी मॉडल में परिवर्तित कर सकता है। यह प्राकृतिक भाषा प्रसंस्करण (एनएलपी) और कंप्यूटर ग्राफिक्स के प्रतिच्छेदन पर काम करता है, जो प्रदान किए गए पाठ के आधार पर 3डी सामग्री उत्पन्न करने के लिए उन्नत एल्गोरिदम का उपयोग करता है।

सम्बंधित: 10 में 3+ सर्वश्रेष्ठ एआई 2023डी जेनरेटर: टेक्स्ट-टू-3डी, इमेज-टू-3डी, वीडियो-टू-3डी

टेक्स्ट-टू-3डी एआई मॉडल की समझ

टेक्स्ट-टू-3डी एआई मॉडल को समझने में अंतर्निहित तंत्र को समझना शामिल है कि यह टेक्स्ट डेटा को 3डी आकार और संरचनाओं में कैसे व्याख्या और परिवर्तित करता है। इसके लिए एनएलपी तकनीकों, 3डी मॉडलिंग और इस कार्य के लिए उपयोग किए जाने वाले विशिष्ट मॉडल आर्किटेक्चर का ज्ञान आवश्यक है। ये AI मॉडल कंप्यूटर-एडेड डिज़ाइन, वर्चुअल रियलिटी, गेमिंग और आर्किटेक्चरल विज़ुअलाइज़ेशन सहित विभिन्न क्षेत्रों में एप्लिकेशन ढूंढते हैं, जो पाठ्य विवरणों और मूर्त 3D अभ्यावेदन के बीच एक सहज अनुवाद को सक्षम करते हैं।

प्रेस्टो-प्लेयर>

टेक्स्ट-टू-3डी की दुनिया

विभिन्न प्लेटफार्मों पर, पाठ विवरण या यहां तक कि एकल छवियों से 3 डी मॉडल की पीढ़ी के बारे में चर्चाएं प्रचुर मात्रा में हैं, जो संभावनाओं की दुनिया को अनलॉक करने का वादा करती हैं। लेकिन आइए परतों को छीलें और पता लगाएं कि सतह के नीचे क्या है।

सबसे पहले और सबसे महत्वपूर्ण, यह पहचानना आवश्यक है कि 3डी केवल जटिल अंतरिक्ष यान और दिमाग चकरा देने वाले सिमुलेशन से बसा हुआ क्षेत्र नहीं है; यह रोजमर्रा के अनुप्रयोगों की व्यावहारिक दुनिया में भी रहता है। इसके मूल में, 3डी में मेश, जटिल नेटवर्क का निर्माण शामिल है defiएक 3D ऑब्जेक्ट की संरचना, आगे हेरफेर और इंटरैक्शन को सक्षम करना। अब तक, मौजूदा शोध पत्र और परियोजनाएं ऐसे तरीकों की पेशकश करती हैं, जिन्हें कुछ हद तक सरल रूप से कहा जाए, तो इसमें पाठ्य या दृश्य इनपुट लेना, विभिन्न कोणों से कई छवियां तैयार करना और फिर 3डी का पुनर्निर्माण करने के लिए फोटोग्रामेट्री, कम्प्यूटेशनल विजार्ड्री और मौजूदा तकनीकों का मिश्रण शामिल है। इनपुट डेटा से ऑब्जेक्ट.

हालाँकि इन तरीकों ने बनावट की गुणवत्ता और सटीकता में सुधार लाने में महत्वपूर्ण प्रगति की है, फिर भी एक चुनौती अभी भी बनी हुई है। सवाल यह है कि हमें इन 3डी मॉडलों की आवश्यकता क्यों है? हालांकि वे व्यावहारिक अनुप्रयोग ढूंढते हैं, जैसे कि ऑनलाइन स्टोर के लिए उत्पाद छवियों को घुमाना, 3डी बनावट और विवरण की पूरी क्षमता का अक्सर कम उपयोग किया जाता है, जिसके परिणामस्वरूप टिकटॉक वीडियो और मीम्स का समुद्र बन जाता है।

टेक्स्ट-टू-3डी एआई मॉडल कैसे काम करते हैं?

टेक्स्ट-टू-3डी एआई मॉडल, टेक्स्ट संबंधी विवरणों को त्रि-आयामी (3डी) अभ्यावेदन में अनुवाद करने की अपनी क्षमता के कारण ध्यान आकर्षित कर रहे हैं। लेकिन यह प्रक्रिया कैसे काम करती है, और आगे क्या चुनौतियाँ हैं?

इस प्रक्रिया को तीन मुख्य चरणों में विभाजित किया जा सकता है। सबसे पहले, एआई मॉडल को किसी दिए गए डेटासेट के आधार पर किसी विशेष वर्ग या प्रकार के 3डी ऑब्जेक्ट को पहचानने के लिए प्रशिक्षित किया जाता है। यह डेटासेट और उसकी विशेषताओं का विश्लेषण करता है defiयह उस वर्ग को समझने में मदद करता है कि उस वर्ग की वस्तुएं कैसे संरचित हैं। यह कदम AI की भावी 3D पीढ़ी की नींव तैयार करता है।

दूसरे चरण में संदर्भ के रूप में मौजूदा 3डी मॉडल का उपयोग करना शामिल है। ये मॉडल एआई के लिए एक टेम्पलेट के रूप में कार्य करते हैं, जो इसे समान विशेषताओं और संरचनाओं के साथ नई 3डी ऑब्जेक्ट उत्पन्न करने की अनुमति देते हैं। यह संदर्भ-आधारित दृष्टिकोण पीढ़ी प्रक्रिया को सुव्यवस्थित करता है और आउटपुट में स्थिरता बनाए रखने में मदद करता है।

तीसरा चरण थोड़ा अधिक विशिष्ट है और मुख्य रूप से मानव अवतार जैसी श्रेणियों पर लागू होता है। यहां, एआई 3डी मॉडल के विशिष्ट वर्गों पर ध्यान केंद्रित करता है, जैसे विभिन्न प्रकार के हेड। 3डी हेड्स का एक बड़ा डेटासेट बनाकर और उस पर एआई को प्रशिक्षित करके, डेवलपर्स कुशलतापूर्वक यथार्थवादी 3डी हेड्स उत्पन्न कर सकते हैं। हालाँकि यह दृष्टिकोण उच्च-गुणवत्ता वाले जाल उत्पन्न करता है, यह वस्तुओं के एक संकीर्ण वर्ग तक सीमित है।

यह ध्यान रखना महत्वपूर्ण है कि यह तकनीक स्थिर छवि या वीडियो की तरह अंतिम, परिष्कृत परिणाम नहीं देती है। इसके बजाय, यह एक मध्यवर्ती 3डी परिसंपत्ति उत्पन्न करता है जिसे पोस्ट-प्रोडक्शन में और अधिक परिष्कृत किया जा सकता है या उत्पादन पाइपलाइन में उपयोग किया जा सकता है। यह बहुमुखी प्रतिभा इसे वीडियो गेम के लिए 3डी संपत्ति बनाने से लेकर सामग्री उत्पादन को सुव्यवस्थित करने तक, विभिन्न अनुप्रयोगों के लिए एक मूल्यवान उपकरण बनाती है।

टेक्स्ट-टू-3डी एआई मॉडल के वादे के बावजूद, अभी भी चुनौतियों पर काबू पाना बाकी है। एक बड़ी बाधा एआई द्वारा प्रभावी ढंग से उत्पन्न की जा सकने वाली वस्तुओं की श्रेणियों को सीमित करने की आवश्यकता है। इस फोकस के बिना, एआई के लिए सार्थक परिणाम देना चुनौतीपूर्ण है।

इसके अतिरिक्त, 3डी डेटासेट का खजाना उपलब्ध है, लेकिन उनमें से सभी पोस्ट-प्रोडक्शन उपयोग के लिए उपयुक्त नहीं हैं। कई व्यावहारिक अनुप्रयोगों के लिए बहुत शोर और भारी हैं। इस समस्या ने उच्च-गुणवत्ता वाले डेटासेट की खोज को प्रेरित किया है जो बेहतर एआई मॉडल के विकास का समर्थन कर सकते हैं।

इसके अलावा, टेक्स्ट-टू-3डी मॉडल बनाना संपत्ति उत्पन्न करें विशिष्ट कार्यों या सॉफ़्टवेयर के लिए उपयुक्त होना एक जटिल प्रक्रिया है। इसके लिए अक्सर एक विशेष दृष्टिकोण की आवश्यकता होती है, क्योंकि विभिन्न अनुप्रयोगों के बीच "पैरामीटर" या विनिर्देश काफी भिन्न होते हैं।

हाल ही में, लूमा एआई ने अपनी नवीनतम रचना जिनी का अनावरण किया है - एक क्रांतिकारी तंत्रिका नेटवर्क जिसे 3डी मॉडलिंग की दुनिया में तूफान लाने के लिए डिज़ाइन किया गया है। लूमा ऐ के दिमाग की उपज जिन्न ने एआई क्षेत्र में उल्लेखनीय प्रवेश किया है, और इसकी क्षमताएं आपको आश्चर्यचकित कर देंगी। लूमा एआई द्वारा पेश की गई यह नवोन्वेषी तकनीक, सरलता से कुछ ही सेकंड में जटिल 3डी मॉडल तैयार कर सकती है। पाठ संकेत. जिस गति और दक्षता से जिन्न काम करता है वह प्रभावशाली से कम नहीं है। यह अभूतपूर्व विकास एआई-जनरेटेड 3डी मॉडलिंग की दुनिया में एक महत्वपूर्ण छलांग का प्रतीक है। कई अन्य सेवाओं के विपरीत, जिनी न केवल आश्चर्यजनक रूप से तेज़ है बल्कि पूरी तरह से मुफ़्त भी है। उपयोगकर्ता बिना किसी लागत के सहजता से 3डी मॉडल तैयार कर सकते हैं, जिससे यह सभी के लिए सुलभ हो जाएगा। यह गेम-चेंजर है, और संभावनाएं असीमित हैं।

टेक्स्ट-टू-3डी विकास के क्षेत्र में, कुछ प्रचलित गलतफहमियों का सामना करना असामान्य नहीं है। कई डेवलपर्स के लिए, 3डी की अवधारणा महज एक मायावी प्रतीत हो सकती है बादल अंकों का. फलक, किनारे, शीर्ष, यूवी, ट्रिस/क्वाड और अन्य मूलभूत तत्वों को कभी-कभी अनदेखा कर दिया जाता है, जिससे समझ में अंतर आ जाता है। यह एक छवि को पिक्सल के ग्रिड से ज्यादा कुछ नहीं मानने के समान है, जिसमें अल्फा, जेड-चैनल और कंपोजिटिंग जैसे अधिक जटिल पहलुओं पर बहुत कम ध्यान दिया जाता है। Dall-E 3, इस क्षेत्र में एक प्रमुख व्यक्ति, पारदर्शिता और अल्फा के बारे में जानते हैं लेकिन विनम्रतापूर्वक स्वीकार करते हैं कि अल्फा चैनल कुछ हद तक रहस्यमय बना हुआ है। परिणाम? प्रयास करते समय फ़ोटोशॉप-शैली की पैंतरेबाज़ी का एक हास्यपूर्ण मिश्रण पृष्ठभूमि हटाएं. हम टेक्स्ट-टू-3डी विकास की मूल नींव पर प्रकाश डालने के लिए इन गलतफहमियों पर गौर करते हैं।

टेक्स्ट-टू-3डी एआई मॉडल के बारे में नवीनतम समाचार

गूगल ने पेश किया है टेक्स्टमेश, एक नई टेक्स्ट-टू-3डी विधि जो सुधारती है Stable Diffusion-आधारित टेक्स्ट-टू-3डी मॉडल पीढ़ी। यह विधि 2डी इनपुट से कई कोण उत्पन्न करती है और 3डी जाल बनाने के लिए न्यूरल रेडियंस फील्ड्स (एनईआरएफ) दृष्टिकोण का उपयोग करती है। टेक्स्टमेश उपयोगकर्ता के अनुकूल आउटपुट, यथार्थवादी 3डी मेश प्रदान करता है, और उच्च संतृप्ति प्रभावों से बचाता है। एसडीएफ ढांचा बनावट को परिष्कृत करता है, स्पष्टता में सुधार करता है और अतिसंतृप्ति से बचाता है।
एनवीडिया ने लॉन्च किया है मैजिक3डी, एक टेक्स्ट-टू-3डी सामग्री निर्माता सॉफ़्टवेयर जो टेक्स्ट विवरण को 3डी डिजिटल मॉडल में परिवर्तित करता है। सॉफ्टवेयर 3डी मॉडल के बड़े डेटासेट पर प्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है और एक 3डी छवि या 2डी छवियों की श्रृंखला से 2डी मॉडल उत्पन्न कर सकता है। यह उपयोगकर्ताओं को 3डी संश्लेषण को नियंत्रित करने के नए तरीके प्रदान करता है और ड्रीमफ्यूजन से दोगुनी तेजी से उच्च गुणवत्ता वाले 3डी मेश मॉडल तैयार कर सकता है।
Google ने एक न्यूरल नेटवर्क विकसित किया है जिसे कहा जाता है ड्रीमफ्यूजन, जो पूर्व-प्रशिक्षित 3D टेक्स्ट-टू-इमेज प्रसार मॉडल का उपयोग करके पाठ विवरण से 2D मॉडल उत्पन्न कर सकता है। यह विधि बड़े पैमाने के डेटासेट और कुशल डीनोइज़िंग 3डी डेटा आर्किटेक्चर की सीमाओं को पार करती है। ड्रीमफ़्यूज़न बेतरतीब ढंग से आरंभ किए गए 3डी मॉडल को अनुकूलित करने के लिए ग्रेडिएंट डिसेंट का उपयोग करता है, जिसके परिणामस्वरूप उच्च-निष्ठा उपस्थिति, गहराई और मानदंडों के साथ भरोसेमंद 3डी मॉडल तैयार होते हैं। सिस्टम 3डी स्पेस जैसे किसी भी पैरामीटर स्पेस में नमूनों को अनुकूलित करने के लिए स्कोर डिस्टिलेशन सैंपलिंग (एसडीएस) का उपयोग करता है।

आप क्या सोचते हैं Stability AIका नया स्थिर 3डी टेक्स्ट-टू-3डी और इमेज-टू-3डी मॉडल? pic.twitter.com/PITVzQ0xtM
- ज़ारथुस्त्र (@tsarnick) नवम्बर 1/2023

जेनरेटिव एआई टेक्स्ट टू 3डी मॉडल + वीआर/एआर + वेब ब्राउजर पर नेटवर्क्ड वर्चुअल 3डी स्पेस। कोड और ऑनलाइन डेमो https://t.co/NrX2LlHLsZ #तीनjs #जेनएआई #वेबएक्सआर #वेबजीएल pic.twitter.com/cY1m3gM2XY
- ताकाहिरो(जॉन स्मिथ) (@superhoge) नवम्बर 3/2023

क्या हम एकल 3-डिग्री छवि के साथ 360डी दृश्य उत्पन्न कर सकते हैं? हम इस समस्या से निपटने के लिए PERF प्रस्तुत करते हैं।

अनुप्रयोग: 1) पैनोरमा-टू-3डी; 2) टेक्स्ट-टू-3डी; 3) 3डी शैलीकरण सिखाएं।

पेपर: https://t.co/OSnaV3w5ey
परियोजना पृष्ठ: https://t.co/f2z8XzBW1f
कोड: https://t.co/d4kV4qbp9m pic.twitter.com/TPPRP7VHlR
- गुआंगकोंग वांग (@GuangcongW) अक्टूबर 26

बहुत सम्मोहक टेक्स्ट-टू-3डी। प्रॉम्प्ट "आधुनिक बैंगनी सोफा" था। 14 सेकंड में उत्पन्न (3 अन्य के साथ) और जीएलबी अन्य 5 सेकंड में ब्लेंडर में आयात हो जाता है।

कलह में शामिल होकर प्रयास करें: https://t.co/z0ZwTIz4AS https://t.co/wCE7R5TiAF pic.twitter.com/tiKxzind71
- एंड्रयू प्राइस (@andrewpprice) नवम्बर 2/2023

«ग्लोसरी इंडेक्स पर वापस

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव