GLIGEN: बाउंडिंग बॉक्स के साथ नया फ्रोजन टेक्स्ट-टू-इमेज जेनरेशन मॉडल
संक्षेप में
GLIGEN, या ग्राउंडेड-लैंग्वेज-टू-इमेज जनरेशन, एक नई तकनीक है जो वर्तमान पूर्व-प्रशिक्षित प्रसार मॉडल की क्षमता को विकसित और विस्तारित करती है।
कैप्शन और बाउंडिंग बॉक्स कंडीशन इनपुट के साथ, GLIGEN मॉडल ओपन-वर्ल्ड ग्राउंडेड टेक्स्ट2img उत्पन्न करता है।
GLIGEN पूर्व-प्रशिक्षित text2img मॉडल से ज्ञान का लाभ उठाकर विशिष्ट स्थानों और शैलियों में विभिन्न प्रकार की वस्तुएँ उत्पन्न कर सकता है।
टेक्स्ट-टू-इमेज जनरेट करते समय ग्लिजेन मानव की-पॉइंट्स को भी आधार बना सकता है।
बड़े पैमाने पर टेक्स्ट-टू-इमेज प्रसार मॉडल एक लंबा सफर तय कर चुके हैं। हालाँकि, वर्तमान अभ्यास पूरी तरह से टेक्स्ट इनपुट पर निर्भर है, जो नियंत्रणीयता को सीमित कर सकता है। ग्लिगेन, या ग्राउंडेड-लैंग्वेज-टू-इमेज जनरेशन, एक नई तकनीक है जो वर्तमान पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल की क्षमता का निर्माण और विस्तार करती है, जिससे उन्हें ग्राउंडिंग इनपुट पर वातानुकूलित किया जा सके।
पूर्व-प्रशिक्षित मॉडल के व्यापक अवधारणा ज्ञान को बनाए रखने के लिए, डेवलपर्स अपने सभी भारों को स्थिर कर देते हैं और ग्राउंडिंग जानकारी को नियंत्रित प्रक्रिया के माध्यम से ताजा प्रशिक्षित परतों में पंप करते हैं। कैप्शन और बाउंडिंग बॉक्स कंडीशन इनपुट्स के साथ, GLIGEN मॉडल ओपन-वर्ल्ड ग्राउंडेड टेक्स्ट-टू-इमेज बनाता है, और ग्राउंडिंग क्षमता नए स्थानिक कॉन्फ़िगरेशन और अवधारणाओं के लिए प्रभावी रूप से सामान्यीकृत होती है।
चेक आउट डेमो को यहाँ से डाउनलोड कर सकते हैं।
- GLIGEN मौजूदा पूर्व-प्रशिक्षित पर आधारित है प्रसार मॉडल, जिसके मूल भार को भारी मात्रा में पूर्व-प्रशिक्षित ज्ञान को बनाए रखने के लिए फ्रीज कर दिया गया है।
- प्रत्येक ट्रांसफॉर्मर ब्लॉक पर, अतिरिक्त ग्राउंडिंग इनपुट को अवशोषित करने के लिए एक नया ट्रेनेबल गेटेड सेल्फ-अटेंशन लेयर बनाया जाता है।
- प्रत्येक ग्राउंडिंग टोकन में दो प्रकार की जानकारी होती है: ग्राउंडेड चीज़ (एन्कोडेड टेक्स्ट या इमेज) और स्थानिक स्थिति की जानकारी (एन्कोडेड बाउंडिंग बॉक्स या प्रमुख बिंदु) के बारे में सिमेंटिक जानकारी।
संबंधित लेख: Microsoft ने एक प्रसार मॉडल जारी किया है जो किसी व्यक्ति की एक तस्वीर से 3D अवतार बना सकता है |
एआई के बारे में और पढ़ें:
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।
और अधिक लेखदामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।