समाचार रिपोर्ट टेक्नोलॉजी
जनवरी ७,२०२१

GLIGEN: बाउंडिंग बॉक्स के साथ नया फ्रोजन टेक्स्ट-टू-इमेज जेनरेशन मॉडल

संक्षेप में

GLIGEN, या ग्राउंडेड-लैंग्वेज-टू-इमेज जनरेशन, एक नई तकनीक है जो वर्तमान पूर्व-प्रशिक्षित प्रसार मॉडल की क्षमता को विकसित और विस्तारित करती है।

कैप्शन और बाउंडिंग बॉक्स कंडीशन इनपुट के साथ, GLIGEN मॉडल ओपन-वर्ल्ड ग्राउंडेड टेक्स्ट2img उत्पन्न करता है।

GLIGEN पूर्व-प्रशिक्षित text2img मॉडल से ज्ञान का लाभ उठाकर विशिष्ट स्थानों और शैलियों में विभिन्न प्रकार की वस्तुएँ उत्पन्न कर सकता है।

टेक्स्ट-टू-इमेज जनरेट करते समय ग्लिजेन मानव की-पॉइंट्स को भी आधार बना सकता है।

बड़े पैमाने पर टेक्स्ट-टू-इमेज प्रसार मॉडल एक लंबा सफर तय कर चुके हैं। हालाँकि, वर्तमान अभ्यास पूरी तरह से टेक्स्ट इनपुट पर निर्भर है, जो नियंत्रणीयता को सीमित कर सकता है। ग्लिगेन, या ग्राउंडेड-लैंग्वेज-टू-इमेज जनरेशन, एक नई तकनीक है जो वर्तमान पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल की क्षमता का निर्माण और विस्तार करती है, जिससे उन्हें ग्राउंडिंग इनपुट पर वातानुकूलित किया जा सके।

GLIGEN: बाउंडिंग बॉक्स के साथ नया फ्रोजन टेक्स्ट-टू-इमेज जेनरेशन मॉडल

पूर्व-प्रशिक्षित मॉडल के व्यापक अवधारणा ज्ञान को बनाए रखने के लिए, डेवलपर्स अपने सभी भारों को स्थिर कर देते हैं और ग्राउंडिंग जानकारी को नियंत्रित प्रक्रिया के माध्यम से ताजा प्रशिक्षित परतों में पंप करते हैं। कैप्शन और बाउंडिंग बॉक्स कंडीशन इनपुट्स के साथ, GLIGEN मॉडल ओपन-वर्ल्ड ग्राउंडेड टेक्स्ट-टू-इमेज बनाता है, और ग्राउंडिंग क्षमता नए स्थानिक कॉन्फ़िगरेशन और अवधारणाओं के लिए प्रभावी रूप से सामान्यीकृत होती है।

चेक आउट डेमो को यहाँ से डाउनलोड कर सकते हैं।

GLIGEN मौजूदा पूर्व-प्रशिक्षित प्रसार मॉडल पर आधारित है, जिसका मूल भार बड़े पैमाने पर पूर्व-प्रशिक्षित ज्ञान को बनाए रखने के लिए जमे हुए हैं।
  • GLIGEN मौजूदा पूर्व-प्रशिक्षित पर आधारित है प्रसार मॉडल, जिसके मूल भार को भारी मात्रा में पूर्व-प्रशिक्षित ज्ञान को बनाए रखने के लिए फ्रीज कर दिया गया है।
  • प्रत्येक ट्रांसफॉर्मर ब्लॉक पर, अतिरिक्त ग्राउंडिंग इनपुट को अवशोषित करने के लिए एक नया ट्रेनेबल गेटेड सेल्फ-अटेंशन लेयर बनाया जाता है।
  • प्रत्येक ग्राउंडिंग टोकन में दो प्रकार की जानकारी होती है: ग्राउंडेड चीज़ (एन्कोडेड टेक्स्ट या इमेज) और स्थानिक स्थिति की जानकारी (एन्कोडेड बाउंडिंग बॉक्स या प्रमुख बिंदु) के बारे में सिमेंटिक जानकारी।
संबंधित लेख: VToonify: कलात्मक पोर्ट्रेट वीडियो बनाने के लिए एक रीयल-टाइम AI मॉडल
बड़े पैमाने पर ग्राउंडिंग डेटा (इमेज-टेक्स्ट-बॉक्स) पर नए जोड़े गए संग्राहक परतों को लगातार पूर्व-प्रशिक्षित किया जाता है, जो कि पूर्व-प्रशिक्षित प्रसार मॉडल का उपयोग करने के वैकल्पिक तरीकों की तुलना में अधिक लागत प्रभावी है, जैसे कि पूर्ण-मॉडल फ़ाइनट्यूनिंग। लेगो के समान, विभिन्न नई क्षमताओं को अनुमति देने के लिए विभिन्न प्रशिक्षित परतों को प्लग इन और आउट किया जा सकता है।
नई जोड़ी गई मॉड्यूलेटेड परतें बड़े पैमाने पर ग्राउंडिंग डेटा (छवि-पाठ-बॉक्स) पर लगातार पूर्व-प्रशिक्षित होती हैं। यह पूर्व-प्रशिक्षित उपयोग के वैकल्पिक तरीकों की तुलना में अधिक लागत प्रभावी है प्रसार मॉडल, जैसे पूर्ण-मॉडल फ़ाइनट्यूनिंग। लेगो के समान, विभिन्न नई क्षमताओं की अनुमति देने के लिए विभिन्न प्रशिक्षित परतों को प्लग इन और आउट किया जा सकता है।
GLIGEN अनुमान के लिए प्रसार प्रक्रिया में अनुसूचित नमूनाकरण का समर्थन करता है, जहां मॉडल गतिशील रूप से ग्राउंडिंग टोकन (नई परत जोड़कर) या मूल प्रसार मॉडल को अच्छे पूर्व (नई परत को बाहर निकालकर) का उपयोग करने के लिए चुन सकता है, और इस प्रकार पीढ़ी की गुणवत्ता को संतुलित कर सकता है। और ग्राउंडिंग क्षमता।
GLIGEN अनुमान के लिए प्रसार प्रक्रिया में अनुसूचित नमूनाकरण का समर्थन करता है, जहां मॉडल गतिशील रूप से ग्राउंडिंग टोकन (नई परत जोड़कर) या मूल प्रसार मॉडल को अच्छे पूर्व (नई परत को बाहर निकालकर) का उपयोग करने के लिए चुन सकता है, और इस प्रकार पीढ़ी की गुणवत्ता को संतुलित कर सकता है। और ग्राउंडिंग क्षमता।
GLIGEN पूर्व-प्रशिक्षित text2img मॉडल से ज्ञान का लाभ उठाकर विशिष्ट स्थानों और शैलियों में विभिन्न प्रकार की वस्तुएँ उत्पन्न कर सकता है।
GLIGEN पूर्व-प्रशिक्षित text2img मॉडल से ज्ञान का लाभ उठाकर विशिष्ट स्थानों और शैलियों में विभिन्न प्रकार की वस्तुएँ उत्पन्न कर सकता है।
संबंधित लेख: Microsoft ने एक प्रसार मॉडल जारी किया है जो किसी व्यक्ति की एक तस्वीर से 3D अवतार बना सकता है
संदर्भ चित्रों का उपयोग करके ग्लिजेन को भी प्रशिक्षित किया जा सकता है।
संदर्भ चित्रों का उपयोग करके ग्लिजेन को भी प्रशिक्षित किया जा सकता है। शीर्ष पंक्ति बताती है कि संदर्भ तस्वीरें, लिखित विवरणों के अलावा, शैली और कार को आकार देने जैसी अधिक बारीक-बारीक विशेषताएँ प्रदान कर सकती हैं। दूसरी पंक्ति दर्शाती है कि एक संदर्भ छवि का उपयोग एक शैली छवि के रूप में भी किया जा सकता है, जिस स्थिति में हमें पता चलता है कि इसे किसी छवि के कोने या किनारे पर रखना पर्याप्त है।
GLIGEN, अन्य प्रसार मॉडल की तरह, ग्राउंडेड छवि को पेंट में प्रदर्शित कर सकता है, जो उन वस्तुओं को उत्पन्न कर सकता है जो आपूर्ति किए गए बाउंडिंग बॉक्स से निकटता से मेल खाते हैं।
GLIGEN, अन्य प्रसार मॉडल की तरह, ग्राउंडेड छवि को पेंट में प्रदर्शित कर सकता है, जो उन वस्तुओं को उत्पन्न कर सकता है जो आपूर्ति किए गए बाउंडिंग बॉक्स से निकटता से मेल खाते हैं।
टेक्स्ट-टू-इमेज जनरेट करते समय ग्लिजेन मानव की-पॉइंट्स को भी आधार बना सकता है।
GLIGEN मानव प्रमुख बिंदुओं को भी ग्राउंड कर सकता है टेक्स्ट-टू-इमेज उत्पन्न करना.

एआई के बारे में और पढ़ें:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

और अधिक लेख
दामिर यालालोव
दामिर यालालोव

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

Hot Stories
हमारे समाचार पत्र शामिल हों।
नवीनतम समाचार

अस्थिरता के बीच बिटकॉइन ईटीएफ के प्रति संस्थागत रुचि बढ़ी

13एफ फाइलिंग के माध्यम से प्रकटीकरण से पता चलता है कि उल्लेखनीय संस्थागत निवेशक बिटकॉइन ईटीएफ में रुचि ले रहे हैं, जो इसकी बढ़ती स्वीकार्यता को रेखांकित करता है...

अधिक जानिए

सजा का दिन आ गया: सीजेड का भाग्य अधर में लटक गया क्योंकि अमेरिकी अदालत ने डीओजे की याचिका पर विचार किया

चांगपेंग झाओ आज सिएटल की एक अमेरिकी अदालत में सजा का सामना करने के लिए तैयार हैं।

अधिक जानिए
हमारे इनोवेटिव टेक समुदाय से जुड़ें
विस्तार में पढ़ें
अधिक पढ़ें
InEVM में सुरक्षा बहाल करने के लिए Injective AltLayer के साथ जुड़ गया है
व्यवसाय समाचार रिपोर्ट टेक्नोलॉजी
InEVM में सुरक्षा बहाल करने के लिए Injective AltLayer के साथ जुड़ गया है
3 मई 2024
मासा ने टेलर के साथ मिलकर मासा लेंडिंग पूल की शुरुआत की, यूएसडीसी को आधार पर उधार लेने में सक्षम बनाया
Markets समाचार रिपोर्ट टेक्नोलॉजी
मासा ने टेलर के साथ मिलकर मासा लेंडिंग पूल की शुरुआत की, यूएसडीसी को आधार पर उधार लेने में सक्षम बनाया
3 मई 2024
वेलोड्रोम ने आने वाले हफ्तों में सुपरचेन बीटा संस्करण लॉन्च किया और ओपी स्टैक लेयर 2 ब्लॉकचेन में विस्तार किया
Markets समाचार रिपोर्ट टेक्नोलॉजी
वेलोड्रोम ने आने वाले हफ्तों में सुपरचेन बीटा संस्करण लॉन्च किया और ओपी स्टैक लेयर 2 ब्लॉकचेन में विस्तार किया
3 मई 2024
CARV ने अपने डेटा स्तर को विकेंद्रीकृत करने और पुरस्कार वितरित करने के लिए एथिर के साथ साझेदारी की घोषणा की
व्यवसाय समाचार रिपोर्ट टेक्नोलॉजी
CARV ने अपने डेटा स्तर को विकेंद्रीकृत करने और पुरस्कार वितरित करने के लिए एथिर के साथ साझेदारी की घोषणा की
3 मई 2024
क्रिप्टोमेरिया लैब्स पीटीई। लिमिटेड