नवम्बर 23/2022

Sber AI ने 2.0 से अधिक भाषाओं में उत्पन्न करने के लिए पहला टेक्स्ट-टू-इमेज मॉडल कैंडिंस्की 100 प्रस्तुत किया है

प्रकाशित: नवंबर 23, 2022 दोपहर 1:23 बजे अपडेट किया गया: नवंबर 23, 2022 दोपहर 1:23 बजे

संक्षेप में

कैंडिंस्की 2.0, पहला बहुभाषी प्रसार मॉडल, Sber AI और SberDevices के 1 बिलियन टेक्स्ट-इमेज जोड़े के संयुक्त डेटासेट का उपयोग करके AI इंस्टीट्यूट ऑफ आर्टिफिशियल इंटेलिजेंस के शोधकर्ताओं की सहायता से Sber AI शोधकर्ताओं द्वारा बनाया और प्रशिक्षित किया गया था।

कई डिजिटल इमेज प्रोसेसिंग कार्यों में प्रसार तेजी से GANs और ऑटोरेग्रेसिव मॉडल की जगह ले रहा है। यह आश्चर्य की बात नहीं है क्योंकि प्रसार सीखना आसान है, हाइपरपैरामीटर, न्यूनतम-अधिकतम अनुकूलन के जटिल चयन की आवश्यकता नहीं है, और सीखने की अस्थिरता से ग्रस्त नहीं है। और सबसे महत्वपूर्ण बात, प्रसार मॉडल लगभग सभी जनरेटिव कार्यों पर अत्याधुनिक परिणाम प्रदर्शित करते हैं - पाठ, ध्वनि निर्माण, वीडियो और यहां तक कि छवि निर्माण 3D.

Sber AI ने 2.0 से अधिक भाषाओं में उत्पन्न करने के लिए पहला टेक्स्ट-टू-इमेज मॉडल कैंडिंस्की 100 प्रस्तुत किया है — कैंडिंस्की एआई द्वारा बनाई गई छवि

दुर्भाग्य से, पाठ-से-कुछ के क्षेत्र में अधिकांश कार्य केवल अंग्रेजी और चीनी पर केंद्रित है। इस अन्याय को ठीक करने के लिए, Sber AI बनाने का फैसला किया एक बहुभाषी पाठ-से-छवि प्रसार मॉडल कैंडिंस्की 2.0, जो 100 से अधिक भाषाओं में प्रश्नों को समझता है। हगिंग फ़ेस पहले से ही कैंडिंस्की 2.0 प्रदान करता है। SberAI और SberDevices के शोधकर्ताओं ने किया है सहयोग किया इस परियोजना पर एआई इंस्टीट्यूट ऑफ आर्टिफिशियल इंटेलिजेंस के विशेषज्ञों के साथ।

प्रसार क्या है?

2015 के लेख में गैर-संतुलन ऊष्मप्रवैगिकी का उपयोग करके डीप अनसुपरवाइज्ड लर्निंगप्रसार मॉडल को पहले एक पदार्थ के मिश्रण के रूप में वर्णित किया गया था जिसके परिणामस्वरूप प्रसार होता है, जो वितरण को बराबर करता है। जैसा कि लेख के शीर्षक से पता चलता है, उन्होंने ऊष्मप्रवैगिकी के ढांचे के माध्यम से प्रसार मॉडल की व्याख्या की।

छवियों के मामले में, ऐसी प्रक्रिया सदृश हो सकती है, उदाहरण के लिए, धीरे-धीरे छवि से गॉसियन शोर को हटाना।

पेपर डिफ्यूजन मॉडल मारो GANs ऑन इमेज सिंथेसिस, 2021 में प्रकाशित, GANS पर प्रसार मॉडल की श्रेष्ठता दिखाने वाला पहला था। लेखकों ने पहली पीढ़ी के नियंत्रण दृष्टिकोण (कंडीशनिंग) को भी तैयार किया, जिसे उन्होंने वर्गीकारक मार्गदर्शन नाम दिया। यह विधि उन वस्तुओं को बनाती है जो एक अलग क्लासिफायरियर (उदाहरण के लिए, कुत्तों) से ग्रेडियेंट का उपयोग करके इच्छित कक्षा में फिट बैठती हैं। अनुकूली समूह मानदंड तंत्र के माध्यम से, जिसमें सामान्यीकरण गुणांकों का पूर्वानुमान शामिल है, स्वयं नियंत्रण किया जाता है।

इस लेख को जनरेटिव एआई के क्षेत्र में एक महत्वपूर्ण मोड़ के रूप में देखा जा सकता है, जिससे कई लोगों ने प्रसार के अध्ययन की ओर रुख किया। के बारे में नए लेख पाठ से वीडियो, टेक्स्ट-से-3डी, छवि बेहोशी, ऑडियो पीढ़ी, प्रसार के लिए सुपररिज़ॉल्यूशन, और यहाँ तक कि गति निर्माण भी हर कुछ सप्ताह में दिखाई देने लगा।

टेक्स्ट-टू-इमेज प्रसार

जैसा कि हमने पहले उल्लेख किया है, शोर में कमी और शोर उन्मूलन आम तौर पर छवि रूपरेखाओं के संदर्भ में प्रसार प्रक्रियाओं के मुख्य घटक होते हैं, इसलिए यूनेट और इसके कई रूपों को मौलिक वास्तुकला के रूप में अक्सर उपयोग किया जाता है।

यह आवश्यक है कि इस पाठ के आधार पर एक छवि बनाने के लिए पीढ़ी के दौरान किसी तरह से इस पर विचार किया जाए। के लेखक OpenAI GLIDE मॉडल पर लेख में पाठ के लिए क्लासिफायर-मुक्त मार्गदर्शन दृष्टिकोण को संशोधित करने का सुझाव दिया गया है।

जमे हुए पूर्व-विकिरणित पाठ एनकोडर के रोजगार और भविष्य में कैस्केड रिज़ॉल्यूशन एन्हांसमेंट मैकेनिज्म ने पाठ उत्पादन में काफी सुधार किया (छवि). यह पता चला कि पाठ के भाग को प्रशिक्षित करने की कोई आवश्यकता नहीं थी टेक्स्ट-टू-इमेज मॉडल जमे हुए T5-xxl का उपयोग करने के परिणामस्वरूप छवि गुणवत्ता और पाठ की समझ में काफी सुधार हुआ और बहुत कम प्रशिक्षण संसाधनों का उपयोग किया गया।

के लेखक ए अव्यक्त प्रसार लेख ने प्रदर्शित किया कि चित्र घटक को वास्तव में प्रशिक्षण की आवश्यकता नहीं है (कम से कम पूरी तरह से नहीं)। यदि हम एक शक्तिशाली छवि ऑटोएन्कोडर (वीक्यू-वीएई या केएल-वीएई) को एक दृश्य डिकोडर के रूप में उपयोग करते हैं और छवि के बजाय प्रसार द्वारा अपने गुप्त स्थान से एम्बेडिंग उत्पन्न करने का प्रयास करते हैं तो सीखना और भी तेज़ी से आगे बढ़ेगा। यह कार्यप्रणाली हाल ही में जारी की नींव भी है Stable Diffusion आदर्श.

कैंडिंस्की 2.0 एआई मॉडल

कुछ प्रमुख सुधारों के साथ, कैंडिंस्की 2.0 एक बढ़ी हुई अव्यक्त प्रसार तकनीक पर आधारित है (हम चित्र नहीं बनाते हैं, बल्कि उनके अव्यक्त वैक्टर):

दो बहुभाषी टेक्स्ट एनकोडर नियुक्त किए और उनके एम्बेडिंग को जोड़ा।
यूनेट जोड़ा गया (1.2 बिलियन पैरामीटर)।
नमूनाकरण प्रक्रिया गतिशील थ्रेशोल्डिंग।

शोधकर्ताओं ने एक साथ दो बहुभाषी एनकोडर-XLMR-क्लिप और mT5-स्मॉल-को बनाने के लिए नियोजित किया आदर्श वास्तव में बहुभाषी। इसलिए, मॉडल अंग्रेजी, रूसी, फ्रेंच और जर्मन के अलावा मंगोलियाई, हिब्रू और फारसी जैसी भाषाओं को भी समझ सकता है। एआई कुल 101 भाषाओं को जानता है। एक साथ दो मॉडलों का उपयोग करके टेक्स्ट को एनकोड करने का निर्णय क्यों लिया गया? चूंकि एक्सएलएमआर-क्लिप ने तस्वीरें देखी हैं और विभिन्न भाषाओं के लिए करीबी एम्बेडिंग प्रदान करता है, और एमटी5-स्मॉल जटिल ग्रंथों को समझने में सक्षम है, इन मॉडलों में अलग-अलग लेकिन महत्वपूर्ण विशेषताएं हैं। चूँकि दोनों मॉडलों में बहुत कम संख्या में पैरामीटर (560M और 146M) हैं, जैसा कि हमारे प्रारंभिक परीक्षणों द्वारा प्रदर्शित किया गया था, यह निर्णय लिया गया कि एक साथ दो एनकोडर का उपयोग किया जाए।

नीचे कैंडिंस्की 2.0 एआई मॉडल द्वारा ताजा जेनरेट की गई छवियां:

कैंडिंस्की 2.0 मॉडल प्रशिक्षण कैसे किया गया?

एमएल स्पेस प्लेटफॉर्म पर प्रशिक्षण के लिए क्रिस्टोफरी सुपरकंप्यूटर का उपयोग किया गया था। इसके लिए 196 NVIDIA A100 कार्ड की आवश्यकता थी, प्रत्येक में 80 जीबी रैम है। प्रशिक्षण को पूरा करने में 14 दिन या 65,856 जीपीयू-घंटे लगे। विश्लेषण में 256×256 रिज़ॉल्यूशन पर पांच दिन लगे, उसके बाद 512×512 रिज़ॉल्यूशन पर छह दिन, फिर शुद्धतम डेटा पर अतिरिक्त तीन दिन।

प्रशिक्षण डेटा के रूप में, कई डेटासेट संयुक्त किए गए थे जिन्हें CLIP-स्कोर मीट्रिक द्वारा मापे गए वॉटरमार्क, कम रिज़ॉल्यूशन और पाठ विवरण के कम पालन के लिए पूर्व-फ़िल्टर किया गया था।

बहुभाषी पीढ़ी

कैंडिंस्की 2.0 शब्दों से छवियां बनाने के लिए पहला बहुभाषी मॉडल है, जो हमें भाषा संस्कृतियों में भाषाई और दृश्य परिवर्तनों का आकलन करने का पहला मौका देता है। एक ही प्रश्न का कई भाषाओं में अनुवाद करने के परिणाम नीचे दिखाए गए हैं। उदाहरण के लिए, रूसी प्रश्न "एक उच्च शिक्षा वाले व्यक्ति" के लिए पीढ़ी के परिणामों में केवल गोरे लोग दिखाई देते हैं, जबकि फ्रांसीसी अनुवाद के परिणाम, "फोटो डी'उन पर्सन डिप्लोमी डे ल'एन्साइनमेंट सुपरियर," अधिक विविध हैं। मैं यह बताना चाहूंगा कि उच्च शिक्षा वाले दुखी लोग केवल रूसी भाषा के संस्करण में मौजूद हैं।

हालाँकि अभी भी विशाल भाषा मॉडल और प्रसार प्रक्रिया के विभिन्न तरीकों के साथ बहुत सारे परीक्षण हैं, हम पहले से ही विश्वास के साथ कह सकते हैं कि कैंडिंस्की 2.0 पहला पूरी तरह से बहुभाषी प्रसार मॉडल है! पर फ्यूजनब्रेन वेबसाइट और गूगल कोलाब, आप उसके चित्रों के उदाहरण देख सकते हैं।

एआई के बारे में और पढ़ें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव