समाचार रिपोर्ट टेक्नोलॉजी
12 जून 2023

माइक्रोसॉफ्ट ने बड़े पैमाने पर निर्देशात्मक विजुअल-टेक्स्ट डेटासेट एमआईएमआईसी-आईटी के आधार पर विजुअल अंडरस्टैंडिंग के लिए मल्टीमॉडल लैंग्वेज मॉडल ओटर पेश किया है।

संक्षेप में

ओटर एक दृश्य भाषा मॉडल (वीएलएम) है जो ओपनफ्लेमिंगो प्लेटफॉर्म पर बनाया गया है, जिसे दृश्य समझ में क्रांति लाने और दृश्य सामग्री के साथ बातचीत करने के लिए डिज़ाइन किया गया है।

ऊद पर निर्मित एक अत्याधुनिक दृश्य भाषा मॉडल (वीएलएम) है ओपनराजहंस प्लेटफ़ॉर्म, और यह दृश्य सामग्री के साथ हमारे इंटरैक्ट करने के तरीके को बेहतर बनाने के लिए तैयार है। महत्वाकांक्षी ओटर परियोजना के हिस्से के रूप में, माइक्रोसॉफ्ट पेश किया है एक विशाल शिक्षाप्रद दृश्य-पाठ डेटासेट कहा जाता है मिमिक-आईटी. इस डेटासेट में उत्तरों के साथ लिंक किए गए मल्टीमॉडल निर्देशों के 2.8 मिलियन जोड़े शामिल हैं, जिनमें छवियों और वीडियो से प्राप्त 2.2 मिलियन अद्वितीय निर्देश शामिल हैं। डेटासेट को प्राकृतिक संवादों का अनुकरण करने के लिए सावधानीपूर्वक तैयार किया गया था, जिसमें छवि और वीडियो विवरण, छवि तुलना, प्रश्न-उत्तर, दृश्य समझ और बहुत कुछ जैसे परिदृश्य शामिल थे। ये उच्च-गुणवत्ता वाले निर्देश-प्रतिक्रिया जोड़े शक्तिशाली का उपयोग करके उत्पन्न किए गए थे ChatGPT-0301 एपीआई, लगभग $20k के निवेश का प्रतिनिधित्व करता है।

माइक्रोसॉफ्ट ने बड़े पैमाने पर निर्देशात्मक विजुअल-टेक्स्ट डेटासेट एमआईएमआईसी-आईटी के आधार पर विजुअल अंडरस्टैंडिंग के लिए मल्टीमॉडल लैंग्वेज मॉडल ओटर पेश किया है।

एमआईएमआईसी-आईटी डेटासेट ओटर मॉडल को प्रशिक्षित करने में महत्वपूर्ण भूमिका निभाता है, जिसे दृश्य दृश्यों, तर्क और तार्किक निष्कर्षों को समझने में उत्कृष्टता प्राप्त करने के लिए डिज़ाइन किया गया है। डेटासेट में प्रत्येक निर्देश-प्रतिक्रिया जोड़ी मल्टी-मोडल इन-संदर्भ जानकारी के साथ होती है, जो संवादात्मक संदर्भ बनाती है जो मॉडल को धारणा, तर्क और योजना की बारीकियों को समझने के लिए सशक्त बनाती है। एनोटेशन प्रक्रिया को स्केल करने के लिए, माइक्रोसॉफ्ट ने सिफस नामक एक स्वचालित एनोटेशन पाइपलाइन को नियोजित किया, जो मानव विशेषज्ञता को क्षमताओं के साथ जोड़ती है GPT डेटासेट की गुणवत्ता और विविधता सुनिश्चित करने के लिए।

माइक्रोसॉफ्ट ने बड़े पैमाने पर निर्देशात्मक विजुअल-टेक्स्ट डेटासेट एमआईएमआईसी-आईटी के आधार पर विजुअल अंडरस्टैंडिंग के लिए मल्टीमॉडल लैंग्वेज मॉडल ओटर पेश किया है।

एमआईएमआईसी-आईटी डेटासेट का उपयोग करते हुए, माइक्रोसॉफ्ट ने ओटर मॉडल को प्रशिक्षित किया, जो ओपनफ्लेमिंगो प्लेटफॉर्म पर आधारित एक बड़े पैमाने का वीएलएम है। दृष्टि-भाषा बेंचमार्क पर व्यापक मूल्यांकन के माध्यम से, ओटर ने मल्टी-मोडल धारणा, तर्क और संदर्भ में सीखने में उल्लेखनीय दक्षता का प्रदर्शन किया है। मानव मूल्यांकन ने उपयोगकर्ता के इरादों के साथ प्रभावी ढंग से जुड़ने की इसकी क्षमता का खुलासा किया है, जिससे यह प्राकृतिक भाषा निर्देशों के आधार पर जटिल कार्यों की व्याख्या और निष्पादन के लिए एक अमूल्य उपकरण बन गया है।

ओटर v0.2 ने वीडियो इनपुट का समर्थन करने के लिए अपनी क्षमताओं का विस्तार किया है, जिससे यह इसकी अनुमति देता है प्रक्रिया फ़्रेम और संदर्भ में उदाहरण के रूप में कई छवियां।

निर्देश-प्रतिक्रिया संग्रह पाइपलाइन, बेंचमार्क और ओटर मॉडल के साथ एमआईएमआईसी-आईटी डेटासेट की रिलीज, मल्टीमॉडल भाषा प्रसंस्करण के क्षेत्र में एक महत्वपूर्ण मील का पत्थर दर्शाती है। इन संसाधनों को शोधकर्ताओं और डेवलपर्स के लिए उपलब्ध कराकर, माइक्रोसॉफ्ट का लक्ष्य नवाचार और सहयोग को बढ़ावा देना है, जिससे लोकप्रिय का उपयोग करके अनुकूलित प्रशिक्षण और अनुमान पाइपलाइनों में ओटर और ओपनफ्लेमिंगो के एकीकरण को सक्षम किया जा सके। गले लगना ट्रांसफार्मर ढांचा.

एमआईएमआईसी-आईटी डेटासेट वास्तविक जीवन के परिदृश्यों की एक विस्तृत श्रृंखला को शामिल करता है, जो सामान्य दृश्यों को समझने, संदर्भ के बारे में तर्क करने और टिप्पणियों के बीच समझदारी से अंतर करने के लिए विज़न-लैंग्वेज मॉडल (वीएलएम) को सशक्त बनाता है। यह संभावनाओं को खोलता है, जैसे कि अहंकारी दृश्य सहायक मॉडल का विकास जो सवालों का जवाब दे सकता है, "अरे, क्या आपको लगता है कि मैंने अपनी चाबियाँ मेज पर छोड़ दी हैं?"।

MIMIC-IT अंग्रेजी भाषा तक सीमित नहीं है। यह चीनी, कोरियाई, जापानी, जर्मन, फ्रेंच, स्पेनिश और अरबी सहित कई भाषाओं का भी समर्थन करता है। यह बहुभाषी समर्थन बड़े वैश्विक दर्शकों को एआई द्वारा लाई गई सुविधा और प्रगति से लाभ उठाने में सक्षम बनाता है।

उच्च गुणवत्ता वाले निर्देश-प्रतिक्रिया युग्मों का निर्माण सुनिश्चित करने के लिए, माइक्रोसॉफ्ट सिफस, एक स्वचालित पाइपलाइन पेश की गई है जो संकेतों के रूप में सिस्टम संदेश, दृश्य एनोटेशन और संदर्भ में उदाहरण शामिल करती है। ChatGPT. यह कई भाषाओं में उत्पन्न निर्देश-प्रतिक्रिया युग्मों की विश्वसनीयता और सटीकता सुनिश्चित करता है।

एआई के बारे में और पढ़ें:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

और अधिक लेख
दामिर यालालोव
दामिर यालालोव

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

Hot Stories
हमारे समाचार पत्र शामिल हों।
नवीनतम समाचार

रिपल से द बिग ग्रीन डीएओ तक: कैसे क्रिप्टोकरेंसी प्रोजेक्ट चैरिटी में योगदान करते हैं

आइए धर्मार्थ कार्यों के लिए डिजिटल मुद्राओं की क्षमता का उपयोग करने वाली पहलों का पता लगाएं।

अधिक जानिए

अल्फाफोल्ड 3, मेड-जेमिनी, और अन्य: जिस तरह से एआई 2024 में हेल्थकेयर को बदल देता है

एआई स्वास्थ्य देखभाल में विभिन्न तरीकों से प्रकट होता है, नए आनुवंशिक सहसंबंधों को उजागर करने से लेकर रोबोटिक सर्जिकल सिस्टम को सशक्त बनाने तक ...

अधिक जानिए
हमारे इनोवेटिव टेक समुदाय से जुड़ें
विस्तार में पढ़ें
अधिक पढ़ें
रिपल से द बिग ग्रीन डीएओ तक: कैसे क्रिप्टोकरेंसी प्रोजेक्ट चैरिटी में योगदान करते हैं
विश्लेषण क्रिप्टो Wiki व्यवसाय शिक्षा लाइफस्टाइल Markets सॉफ्टवेयर टेक्नोलॉजी
रिपल से द बिग ग्रीन डीएओ तक: कैसे क्रिप्टोकरेंसी प्रोजेक्ट चैरिटी में योगदान करते हैं
13 मई 2024
अल्फाफोल्ड 3, मेड-जेमिनी, और अन्य: जिस तरह से एआई 2024 में हेल्थकेयर को बदल देता है
AI Wiki विश्लेषण संग्रह राय व्यवसाय Markets समाचार रिपोर्ट सॉफ्टवेयर कहानियाँ और समीक्षाएँ टेक्नोलॉजी
अल्फाफोल्ड 3, मेड-जेमिनी, और अन्य: जिस तरह से एआई 2024 में हेल्थकेयर को बदल देता है
13 मई 2024
निम नेटवर्क मई में निर्धारित स्नैपशॉट तिथि के साथ एआई ओनरशिप टोकनाइजेशन फ्रेमवर्क शुरू करेगा और यील्ड सेल आयोजित करेगा
Markets समाचार रिपोर्ट टेक्नोलॉजी
निम नेटवर्क मई में निर्धारित स्नैपशॉट तिथि के साथ एआई ओनरशिप टोकनाइजेशन फ्रेमवर्क शुरू करेगा और यील्ड सेल आयोजित करेगा
13 मई 2024
साइबर अपराध से निपटने के लिए बिनेंस ने अर्जेंटीना के साथ साझेदारी की
राय व्यवसाय Markets समाचार रिपोर्ट सॉफ्टवेयर टेक्नोलॉजी
साइबर अपराध से निपटने के लिए बिनेंस ने अर्जेंटीना के साथ साझेदारी की
13 मई 2024
क्रिप्टोमेरिया लैब्स पीटीई। लिमिटेड