Google ने AI मॉडल फ्लेमिंगो को YouTube वीडियो के लिए विवरण लिखना सिखाया
संक्षेप में
फ्लेमिंगो स्वचालित रूप से विवरण बनाकर खोज के माध्यम से छोटे वीडियो को खोजने में मुश्किल होने की समस्या को हल करता है।
Google DeepMind, AI अनुसंधान प्रयोगशाला, के पास है विकसित फ्लेमिंगो नामक एक दृश्य भाषा मॉडल YouTube पर लघु वीडियो के लिए विवरण लिखने में सक्षम है। फ्लेमिंगो की समस्या यह है कि विवरण में आवश्यक जानकारी की कमी के कारण लघु वीडियो अक्सर खोज के माध्यम से ढूंढना मुश्किल होता है। फ्लेमिंगो मॉडल वीडियो होस्टिंग साइटों पर लाखों लघु वीडियो क्लिप के लिए स्वचालित रूप से पाठ उत्पन्न करके इस समस्या को हल करता है, जिसका उपयोग आसान खोज को सक्षम करने के लिए "पर्दे के पीछे" किया जाता है। हालांकि वीडियो लेखक मेटाडेटा नहीं देख पाएंगे, लेकिन इससे दर्शकों को शॉर्ट्स खोजने और नेविगेट करने में मदद मिलती है। वर्तमान में, फ्लेमिंगो लंबे समय से नई क्लिप पर काम कर रहा है और YouTube पर अपलोड किए गए पुराने वीडियो को प्रोसेस कर रहा है।
अतीत में, Google ने एक एल्गोरिदम पेश किया जो लोगों को सर्च बार का उपयोग करके वीडियो के अंदर जानकारी खोजने में सक्षम बनाता है। हाल ही में, TwelveLabs ने इसी तरह के विकास के लिए निवेशकों से $12 मिलियन जुटाए। ये उपकरण वीडियो के लिए नए अवसर पैदा करते हैं सामग्री निर्माता उनकी पहुंच और दृश्यता बढ़ाने के लिए। खोज प्रक्रिया को बेहतर बनाने और सरल बनाने और शॉर्ट-फॉर्म कंटेंट की खोज के लिए एआई का लाभ उठाकर, डीपमाइंड और इसी तरह के स्टार्टअप वीडियो में क्रांति ला रहे हैं। स्ट्रीमिंग सेवाएं. वे अधिक बुद्धिमान और कुशल खोज तकनीकों के विकास में योगदान दे रहे हैं, जिससे दर्शकों के लिए ऐसी सामग्री ढूंढना और भी आसान हो गया है जो वास्तव में उनकी रुचि है।
खोज तकनीकों को उन्नत करने में आर्टिफिशियल इंटेलिजेंस महत्वपूर्ण भूमिका निभा रहा है। एआई का लाभ उठाकर, फ्लेमिंगो मॉडल सामग्री को स्कैन और क्रमबद्ध कर सकता है और पाठ उत्पन्न कर सकता है जो उपयोगकर्ताओं को नेविगेट करने में मदद करने के लिए सामग्री को सारांशित करता है। फ्लेमिंगो मॉडल वीडियो के ऑडियो और विज़ुअल सामग्री के आधार पर वीडियो क्लिप के शाब्दिक विवरण उत्पन्न करने के लिए गहरे तंत्रिका नेटवर्क का उपयोग करता है। यह लघु-रूप सामग्री के श्रवण और दृश्य घटकों को कैप्चर कर सकता है और उन्हें सारांश में बदल सकता है जो उपयोगकर्ताओं के लिए खोजना और एक्सेस करना आसान है।
एआई का उपयोग उपयोगकर्ताओं के लिए महत्वपूर्ण जानकारी की पहचान करने में मदद कर सकता है, जो विवरण जोड़ते समय रचनाकारों के मैन्युअल प्रयासों में छूट सकता है। प्रत्येक विवरण को मैन्युअल रूप से कैप्चर करने का समय लेने वाला प्रयास हमेशा व्यावहारिक नहीं होता है, विशेष रूप से YouTube जैसे प्लेटफॉर्म पर अपलोड किए गए शॉर्ट-फॉर्म वीडियो सामग्री के निरंतर प्रवाह के साथ। विशिष्ट लघु-रूप सामग्री की खोज करते समय यह उपयोगकर्ता भ्रम और हताशा पैदा कर सकता है। हालांकि, फ्लेमिंगो जैसे दृश्य भाषा मॉडल के उपयोग के साथ, मेटाडेटा को आसान पहुंच के लिए सारांश प्रदान करने के लिए स्वचालित रूप से जेनरेट किया जा सकता है, इस प्रकार समय की बचत होती है और खोज प्रक्रिया को अधिक कुशल और सटीक बना दिया जाता है।
फ्लेमिंगो ओपन-एंडेड टास्क के लिए नए अत्याधुनिक विज़ुअल लैंग्वेज मॉडल सेट करता है
सबसे महत्वपूर्ण विवरण फ्लेमिंगो का परिचय है, एक एकल दृश्य भाषा मॉडल (VLM) जो ओपन-एंडेड मल्टीमॉडल कार्यों की एक विस्तृत श्रृंखला पर कुछ-शॉट सीखने में कला की एक नई स्थिति स्थापित करता है। फ्लेमिंगो एक एकल दृश्य भाषा मॉडल (वीएलएम) है जो पुनःdefiओपन-एंडेड मल्टीमॉडल गतिविधियों की एक विस्तृत श्रृंखला में कुछ-शॉट सीखना आवश्यक है। यह एक प्राप्त करता है शीघ्र इसमें संबंधित भाषा में इनपुट और आउटपुट के रूप में इंटरलीव्ड छवियां, वीडियो और टेक्स्ट शामिल हैं। फ्लेमिंगो का दृश्य और पाठ इंटरफ़ेस, बड़े भाषा मॉडल की तरह (एलएलएम), एक बहुआयामी लक्ष्य को पूरा करने की दिशा में मॉडल का नेतृत्व कर सकते हैं। फ्लेमिंगो के प्रॉम्प्ट में रचित विज़ुअल इनपुट और अपेक्षित पाठ प्रतिक्रियाओं के कुछ उदाहरण जोड़े दिए जाने पर मॉडल को एक ताज़ा छवि या वीडियो के साथ एक प्रश्न पूछा जा सकता है और फिर एक उत्तर का निर्माण किया जा सकता है।
फ्लेमिंगो एक दृश्य भाषा मॉडल है जो बड़े भाषा मॉडल को शक्तिशाली दृश्य प्रतिनिधित्व के साथ फ़्यूज़ करता है और पूरक बड़े पैमाने के मल्टीमॉडल डेटा के मिश्रण पर प्रशिक्षित किया जाता है जो केवल वेब से मशीन सीखने के उद्देश्यों के लिए एनोटेट किए गए डेटा का उपयोग किए बिना आता है। यह पिछले सभी कुछ-शॉट सीखने के दृष्टिकोणों को हरा देता है, जब प्रति कार्य के रूप में चार उदाहरण दिए जाते हैं और उन तरीकों से बेहतर प्रदर्शन करते हैं जो स्वतंत्र रूप से प्रत्येक कार्य के लिए ठीक-ठीक और अनुकूलित होते हैं और अधिक कार्य-विशिष्ट डेटा के परिमाण के कई आदेशों का उपयोग करते हैं। इसने अपने वर्तमान बेंचमार्क से परे मॉडल की गुणात्मक क्षमताओं का भी परीक्षण किया, जैसे लिंग और त्वचा के रंग से संबंधित छवियों को कैप्शन करना और Google के परिप्रेक्ष्य एपीआई के माध्यम से इसके उत्पन्न कैप्शन को चलाना, जो पाठ की विषाक्तता का मूल्यांकन करता है। फ्लेमिंगो मॉडल को संशोधित किए बिना इन उदाहरणों और अन्य कार्यों को कुशलतापूर्वक अनुकूलित करना संभव बनाता है और आउट-ऑफ-द-बॉक्स मल्टीमॉडल संवाद क्षमताओं को प्रदर्शित करता है।
फ्लेमिंगो मॉडलों का एक सामान्य-उद्देश्य वाला परिवार है जिसे न्यूनतम कार्य-विशिष्ट उदाहरणों के साथ छवि और वीडियो समझने वाले कार्यों पर लागू किया जा सकता है। यह मॉडलों का एक प्रभावी और कुशल सामान्य-उद्देश्य वाला परिवार है जिसे न्यूनतम कार्य-विशिष्ट उदाहरणों के साथ छवि और वीडियो समझने वाले कार्यों पर लागू किया जा सकता है। फ्लेमिंगो की क्षमताएं सीखे हुए विजुअल लैंग्वेज मॉडल्स के साथ समृद्ध इंटरैक्शन का मार्ग प्रशस्त करती हैं जो विजुअल असिस्टेंट की तरह बेहतर व्याख्या और रोमांचक नए एप्लिकेशन को सक्षम कर सकते हैं।
एआई के बारे में और पढ़ें:
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।
और अधिक लेखदामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।