दिसम्बर 25/2023

टेक्स्ट-टू-इमेज AI मॉडल

प्रकाशित: 25 दिसंबर, 2023 पूर्वाह्न 6:06 बजे अद्यतन: 25 दिसंबर, 2023 पूर्वाह्न 6:06 बजे

टेक्स्ट-टू-इमेज AI मॉडल क्या है?

टेक्स्ट-टू-इमेज मॉडल एक प्रकार है यंत्र अधिगम मॉडल जो एक ऐसी छवि उत्पन्न करता है जो इनपुट के रूप में प्रदान किए गए प्राकृतिक भाषा विवरण से मेल खाती है। टेक्स्ट-टू-इमेज मॉडल में आम तौर पर दो घटक होते हैं: एक जेनरेटिव इमेज मॉडल जो इनपुट टेक्स्ट पर वातानुकूलित चित्र बनाता है, और एक भाषा मॉडल जो टेक्स्ट को एक अव्यक्त प्रतिनिधित्व में परिवर्तित करता है। बड़ी मात्रा में टेक्स्ट और चित्र डेटा जो इंटरनेट से निकाले गए थे, आमतौर पर सबसे कुशल एल्गोरिदम को प्रशिक्षित करने के लिए उपयोग किए जाते हैं।

सम्बंधित: 5 के 2023+ बहुप्रतीक्षित टेक्स्ट-टू-इमेज एआई मॉडल

टेक्स्ट-टू-इमेज एआई मॉडल की समझ

टोरंटो विश्वविद्यालय के शोधकर्ताओं ने 2015 में पहला समकालीन टेक्स्ट-टू-इमेज मॉडल, एलाइनड्रॉ जारी किया। पहली बार पेश किए गए ड्रॉ आर्किटेक्चर को टेक्स्ट अनुक्रम कंडीशनिंग प्रदान करने के लिए एलाइनड्रा द्वारा विस्तारित किया गया था। जबकि एलाइनड्रा-जनरेटेड छवियों में फोटोरिअलिज्म की कमी थी और वे धुंधली थीं, मॉडल ने प्रदर्शित किया कि यह प्रशिक्षण सेट की सामग्री को "याद रखने" से कहीं अधिक सक्षम है, जो उन वस्तुओं को सामान्यीकृत करने में सक्षम है जो प्रशिक्षण सेट में शामिल नहीं थे और ठीक से प्रतिक्रिया करने में सक्षम थे। नये संकेत.

RSI OpenAI ट्रांसफॉर्मर सिस्टम DALL-E पहले टेक्स्ट-टू-इमेज मॉडल में से एक था जिसने महत्वपूर्ण सार्वजनिक रुचि आकर्षित की, इसका अनावरण जनवरी 2021 में किया गया था। अप्रैल 2022 में, DALL-E 2, एक प्रतिस्थापन जो अधिक जटिल और जीवंत दृश्य उत्पन्न कर सकता था, था पेश किया। उसी वर्ष अगस्त में, Stable Diffusion जनता के लिए उपलब्ध कराया गया। विशाल टेक्स्ट-टू-इमेज फाउंडेशन मॉडल के "निजीकरण" का आगे का प्रदर्शन अगस्त 2022 में हुआ। टेक्स्ट-टू-इमेज अनुकूलन के साथ, किसी आइटम की छोटी संख्या में तस्वीरों के साथ मॉडल को एक नई अवधारणा सिखाई जा सकती है। यह टेक्स्ट-टू-इमेज फाउंडेशन मॉडल के प्रशिक्षण सेट का हिस्सा है, यह टेक्स्टुअल इनवर्जन द्वारा प्राप्त किया जाता है।

सम्बंधित: सर्वश्रेष्ठ 100+ Stable Diffusion संकेत: सबसे खूबसूरत एआई टेक्स्ट-टू-इमेज संकेत

टेक्स्ट-टू-इमेज AI मॉडल का भविष्य

रचनात्मक समुदाय एआई कला के साथ विस्फोट कर रहा है, जो हमें बौद्धिक और कलात्मक रूप से अज्ञात क्षेत्र में धकेल रहा है। हालाँकि इसके रचनात्मक पहलुओं की अभी भी खोज की जा रही है, लेकिन इसने कलात्मक कल्पना के वातावरण को बदलना शुरू कर दिया है। स्क्रीन पर हमने जो कुछ भी देखा है, उससे परे बुद्धिमान मानवीय दृश्य पहले से ही हमारे दिमाग में स्वागत योग्य हैं। सबसे दिलचस्प प्रगति में से एक टेक्स्ट-टू-इमेज निर्माण है, जो कंप्यूटर को टेक्स्ट कमांड के जवाब में छवियां बनाने में सक्षम बनाता है। कलाकार दैनिक आधार पर अपनी कल्पनाओं का विस्तार करने के लिए एआई का उपयोग करते हैं। उनकी रुचि काल्पनिक शहरों को बनाने के लिए प्रौद्योगिकी की जांच करने, डिस्को में कुत्तों को नाचते देखने या भविष्य में क्या होगा इसका पता लगाने में अधिक है।

टेक्स्ट-टू-इमेज एआई मॉडल के बारे में नवीनतम समाचार

Midjourney 5.2 और Stable Diffusion SDXL 0.9 ने रचनात्मक छवि निर्माण के लिए महत्वपूर्ण अपडेट जारी किए हैं। Midjourney 5.2 ज़ूम आउट, अनुकूलन योग्य विविधताएं और 1:1 छवि परिवर्तन का परिचय देता है। यह आउटपेंटिंग, अनुकूलन योग्य विविधताएं और संकेतों को अनुकूलित करने और उन्हें उपयोगकर्ताओं के इरादों के साथ संरेखित करने के लिए एक त्वरित पार्सर भी पेश करता है। ये अद्यतन उपयोगकर्ता अनुभव को बढ़ाते हैं और यथार्थवादी चित्र बनाने में सटीकता में सुधार करते हैं।
स्नैपफ़्यूज़न एक एआई मॉडल है जो उपयोगकर्ताओं को मोबाइल उपकरणों पर केवल दो सेकंड में प्राकृतिक भाषा विवरण से आश्चर्यजनक छवियां बनाने की अनुमति देता है। यह महंगे GPU और क्लाउड-आधारित सेवाओं की आवश्यकता को समाप्त करता है, लागत को कम करता है और गोपनीयता संबंधी चिंताओं को दूर करता है। मॉडल की दक्षता और प्रदर्शन को MS-COCO डेटासेट पर प्रयोगों में प्रदर्शित किया गया है।
शोधकर्ताओं ने GigaGAN विकसित किया है, एक टेक्स्ट-टू-इमेज मॉडल जो 4 सेकंड में 3.66K छवियां उत्पन्न कर सकता है, जो मौजूदा मॉडलों की तुलना में एक महत्वपूर्ण सुधार है। GigaGAN GAN फ्रेमवर्क पर आधारित है और 1 बिलियन-छवि डेटासेट पर प्रशिक्षित है, जो 512 सेकंड में 0.13px छवियां उत्पन्न करता है। इसमें एक उलझा हुआ, निरंतर और नियंत्रणीय अव्यक्त स्थान है, जो विभिन्न शैलियों और छवि नियंत्रण की अनुमति देता है। मॉडल वास्तविक छवियों या आउटपुट के लिए एक कुशल अपसैंपलर को भी प्रशिक्षित कर सकता है।

Stable Diffusion स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी के शोध के अनुसार, और अन्य शीर्ष टेक्स्ट-टू-इमेज जेनरेटर एआई टूल को बच्चों की अवैध छवियों पर प्रशिक्षित किया गया है।https://t.co/nAXXBYH8L2 pic.twitter.com/8zmE94TpqS
- फोर्ब्स टेक (@ForbesTech) दिसम्बर 20/2023

आज से, 500 ईसा पूर्व से लेकर आज तक के भारत के इतिहास की प्रमुख घटनाओं को कवर करने वाले थ्रेड्स की एक अविस्मरणीय श्रृंखला, प्रति घटना 1 पंक्ति पाठ और एक अति यथार्थवादी जेनरेटर एआई छवि के साथ।

व्यापक रूप से साझा करें और दिसंबर की छुट्टियों का सदुपयोग करें। आज का सूत्र 500 ईसा पूर्व से 1 ईसा पूर्व तक pic.twitter.com/yVqomWkaoN
— इतिहासिका | इतिहासिका (@itihasika) दिसम्बर 17/2023

छवियों में कई एआई टेक्स्ट के साथ बनाया गया एक इंटरपोलेशन #रनवेएमएल साउंड एफएक्स और इमेज अपस्केलिंग के साथ भी जोड़ा गया। #क्लिपचैंप. #एआईकलाकृति #डिजिटलवीडियो #डिजिटल कला pic.twitter.com/KPPDac4NEZ
- ज़मान (@ZMAN_Network) दिसम्बर 24/2023

«ग्लोसरी इंडेक्स पर वापस

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

विक्टोरिया विभिन्न प्रौद्योगिकी विषयों पर लेखिका हैं Web3.0, एआई और क्रिप्टोकरेंसी। उनका व्यापक अनुभव उन्हें व्यापक दर्शकों के लिए ज्ञानवर्धक लेख लिखने की अनुमति देता है।

और अधिक लेख

विक्टोरिया पालचिक