माइक्रोसॉफ्ट ने बड़े पैमाने पर निर्देशात्मक विजुअल-टेक्स्ट डेटासेट एमआईएमआईसी-आईटी के आधार पर विजुअल अंडरस्टैंडिंग के लिए मल्टीमॉडल लैंग्वेज मॉडल ओटर पेश किया है।
संक्षेप में
ओटर एक दृश्य भाषा मॉडल (वीएलएम) है जो ओपनफ्लेमिंगो प्लेटफॉर्म पर बनाया गया है, जिसे दृश्य समझ में क्रांति लाने और दृश्य सामग्री के साथ बातचीत करने के लिए डिज़ाइन किया गया है।
ऊद पर निर्मित एक अत्याधुनिक दृश्य भाषा मॉडल (वीएलएम) है ओपनराजहंस प्लेटफ़ॉर्म, और यह दृश्य सामग्री के साथ हमारे इंटरैक्ट करने के तरीके को बेहतर बनाने के लिए तैयार है। महत्वाकांक्षी ओटर परियोजना के हिस्से के रूप में, माइक्रोसॉफ्ट पेश किया है एक विशाल शिक्षाप्रद दृश्य-पाठ डेटासेट कहा जाता है मिमिक-आईटी. इस डेटासेट में उत्तरों के साथ लिंक किए गए मल्टीमॉडल निर्देशों के 2.8 मिलियन जोड़े शामिल हैं, जिनमें छवियों और वीडियो से प्राप्त 2.2 मिलियन अद्वितीय निर्देश शामिल हैं। डेटासेट को प्राकृतिक संवादों का अनुकरण करने के लिए सावधानीपूर्वक तैयार किया गया था, जिसमें छवि और वीडियो विवरण, छवि तुलना, प्रश्न-उत्तर, दृश्य समझ और बहुत कुछ जैसे परिदृश्य शामिल थे। ये उच्च-गुणवत्ता वाले निर्देश-प्रतिक्रिया जोड़े शक्तिशाली का उपयोग करके उत्पन्न किए गए थे ChatGPT-0301 एपीआई, लगभग $20k के निवेश का प्रतिनिधित्व करता है।
एमआईएमआईसी-आईटी डेटासेट ओटर मॉडल को प्रशिक्षित करने में महत्वपूर्ण भूमिका निभाता है, जिसे दृश्य दृश्यों, तर्क और तार्किक निष्कर्षों को समझने में उत्कृष्टता प्राप्त करने के लिए डिज़ाइन किया गया है। डेटासेट में प्रत्येक निर्देश-प्रतिक्रिया जोड़ी मल्टी-मोडल इन-संदर्भ जानकारी के साथ होती है, जो संवादात्मक संदर्भ बनाती है जो मॉडल को धारणा, तर्क और योजना की बारीकियों को समझने के लिए सशक्त बनाती है। एनोटेशन प्रक्रिया को स्केल करने के लिए, माइक्रोसॉफ्ट ने सिफस नामक एक स्वचालित एनोटेशन पाइपलाइन को नियोजित किया, जो मानव विशेषज्ञता को क्षमताओं के साथ जोड़ती है GPT डेटासेट की गुणवत्ता और विविधता सुनिश्चित करने के लिए।
एमआईएमआईसी-आईटी डेटासेट का उपयोग करते हुए, माइक्रोसॉफ्ट ने ओटर मॉडल को प्रशिक्षित किया, जो ओपनफ्लेमिंगो प्लेटफॉर्म पर आधारित एक बड़े पैमाने का वीएलएम है। दृष्टि-भाषा बेंचमार्क पर व्यापक मूल्यांकन के माध्यम से, ओटर ने मल्टी-मोडल धारणा, तर्क और संदर्भ में सीखने में उल्लेखनीय दक्षता का प्रदर्शन किया है। मानव मूल्यांकन ने उपयोगकर्ता के इरादों के साथ प्रभावी ढंग से जुड़ने की इसकी क्षमता का खुलासा किया है, जिससे यह प्राकृतिक भाषा निर्देशों के आधार पर जटिल कार्यों की व्याख्या और निष्पादन के लिए एक अमूल्य उपकरण बन गया है।
ओटर v0.2 ने वीडियो इनपुट का समर्थन करने के लिए अपनी क्षमताओं का विस्तार किया है, जिससे यह इसकी अनुमति देता है प्रक्रिया फ़्रेम और संदर्भ में उदाहरण के रूप में कई छवियां।
निर्देश-प्रतिक्रिया संग्रह पाइपलाइन, बेंचमार्क और ओटर मॉडल के साथ एमआईएमआईसी-आईटी डेटासेट की रिलीज, मल्टीमॉडल भाषा प्रसंस्करण के क्षेत्र में एक महत्वपूर्ण मील का पत्थर दर्शाती है। इन संसाधनों को शोधकर्ताओं और डेवलपर्स के लिए उपलब्ध कराकर, माइक्रोसॉफ्ट का लक्ष्य नवाचार और सहयोग को बढ़ावा देना है, जिससे लोकप्रिय का उपयोग करके अनुकूलित प्रशिक्षण और अनुमान पाइपलाइनों में ओटर और ओपनफ्लेमिंगो के एकीकरण को सक्षम किया जा सके। गले लगना ट्रांसफार्मर ढांचा.
एमआईएमआईसी-आईटी डेटासेट वास्तविक जीवन के परिदृश्यों की एक विस्तृत श्रृंखला को शामिल करता है, जो सामान्य दृश्यों को समझने, संदर्भ के बारे में तर्क करने और टिप्पणियों के बीच समझदारी से अंतर करने के लिए विज़न-लैंग्वेज मॉडल (वीएलएम) को सशक्त बनाता है। यह संभावनाओं को खोलता है, जैसे कि अहंकारी दृश्य सहायक मॉडल का विकास जो सवालों का जवाब दे सकता है, "अरे, क्या आपको लगता है कि मैंने अपनी चाबियाँ मेज पर छोड़ दी हैं?"।
MIMIC-IT अंग्रेजी भाषा तक सीमित नहीं है। यह चीनी, कोरियाई, जापानी, जर्मन, फ्रेंच, स्पेनिश और अरबी सहित कई भाषाओं का भी समर्थन करता है। यह बहुभाषी समर्थन बड़े वैश्विक दर्शकों को एआई द्वारा लाई गई सुविधा और प्रगति से लाभ उठाने में सक्षम बनाता है।
उच्च गुणवत्ता वाले निर्देश-प्रतिक्रिया युग्मों का निर्माण सुनिश्चित करने के लिए, माइक्रोसॉफ्ट सिफस, एक स्वचालित पाइपलाइन पेश की गई है जो संकेतों के रूप में सिस्टम संदेश, दृश्य एनोटेशन और संदर्भ में उदाहरण शामिल करती है। ChatGPT. यह कई भाषाओं में उत्पन्न निर्देश-प्रतिक्रिया युग्मों की विश्वसनीयता और सटीकता सुनिश्चित करता है।
एआई के बारे में और पढ़ें:
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।
और अधिक लेखदामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।