Is GPT-4 सुपरचार्ज रोबोटिक्स के बारे में? क्यों RT-2 सब कुछ बदल देता है
संक्षेप में
Google DeepMind ने विज़न-भाषा मॉडल एप्लिकेशन विकसित किया है एंड-टू-एंड रोबोटिक नियंत्रण, विभिन्न क्षेत्रों में ज्ञान को सामान्य बनाने और स्थानांतरित करने की उनकी क्षमता पर ध्यान केंद्रित करना।
बड़ी मात्रा में जानकारी को एन्कोड करने में सक्षम अनुक्रम उत्पन्न करने के लिए डिज़ाइन किया गया RT-2 मॉडल, अपरिचित वस्तुओं, विभिन्न पृष्ठभूमि और विभिन्न वातावरणों सहित विभिन्न परिदृश्यों में परीक्षण किया गया है।
आरटी-2 मॉडल नई परिस्थितियों के अनुकूल ढलने में अपने कुछ पूर्ववर्तियों से बेहतर प्रदर्शन करता है, जिसका मुख्य कारण इसका विस्तृत भाषा मॉडल है।
Google DeepMind ने दृष्टि-भाषा मॉडल अनुप्रयोगों की जांच की, एंड-टू-एंड रोबोटिक नियंत्रण के लिए उनकी क्षमता पर ध्यान केंद्रित कर रहे हैं। इस जांच में यह निर्धारित करने की कोशिश की गई कि क्या ये मॉडल व्यापक सामान्यीकरण में सक्षम थे। इसके अलावा, इसने जांच की कि क्या कुछ संज्ञानात्मक कार्य, जैसे तर्क और योजना, जो अक्सर व्यापक भाषा मॉडल से जुड़े होते हैं, इस संदर्भ में उभर सकते हैं।
इस अन्वेषण के पीछे का मूल आधार आंतरिक रूप से बड़े भाषा मॉडल (एलएलएम) की विशेषताओं से जुड़ा हुआ है। ऐसा मॉडल उत्पन्न करने के लिए डिज़ाइन किए गए हैं सूचना की एक विस्तृत श्रृंखला को एन्कोड करने में सक्षम कोई भी अनुक्रम। इसमें न केवल सामान्य भाषा या पायथन जैसी प्रोग्रामिंग कोड, बल्कि विशिष्ट कमांड भी शामिल हैं जो रोबोटिक क्रियाओं का मार्गदर्शन कर सकता है.
इसे परिप्रेक्ष्य में रखने के लिए, विशिष्ट स्ट्रिंग अनुक्रमों को समझने और क्रियाशील रोबोटिक कमांड में अनुवाद करने की मॉडल की क्षमता पर विचार करें। उदाहरण के तौर पर, एक उत्पन्न स्ट्रिंग जैसे "1 128 91 241 5 101 127 217" को निम्नलिखित तरीके से डिकोड किया जा सकता है:
- प्रारंभिक अंक, एक, दर्शाता है कि कार्य अभी भी जारी है और पूरा नहीं हुआ है।
- संख्याओं का अगला त्रय, 128-91-241, अंतरिक्ष के तीन आयामों में एक सापेक्ष और सामान्यीकृत बदलाव को दर्शाता है।
- समापन सेट, 101-127-217, रोबोट के कार्यात्मक बांह खंड की रोटेशन डिग्री को इंगित करता है।
ऐसा विन्यास रोबोट को सक्षम बनाता है स्वतंत्रता की छह डिग्री में अपने राज्य को संशोधित करने के लिए। एक समानांतर रेखा खींचना, जैसे भाषा मॉडल इंटरनेट पर विशाल पाठ्य डेटा से सामान्य विचारों और अवधारणाओं को आत्मसात करने के लिए, आरटी-2 मॉडल रोबोटिक क्रियाओं को निर्देशित करने के लिए वेब-आधारित जानकारी से ज्ञान निकालता है।
इसके संभावित निहितार्थ महत्वपूर्ण हैं। यदि कोई मॉडल प्रक्षेप पथों के एक क्यूरेटेड सेट के संपर्क में आता है जो अनिवार्य रूप से इंगित करता है, "एक विशेष परिणाम प्राप्त करने के लिए, रोबोट की पकड़ तंत्र को एक विशिष्ट तरीके से आगे बढ़ने की जरूरत है," तो यह उचित है कि ट्रांसफार्मर सुसंगत क्रियाएं उत्पन्न कर सकता है यह इनपुट.
मूल्यांकन के अंतर्गत एक महत्वपूर्ण पहलू क्षमता थी प्रशिक्षण के दौरान शामिल न किए गए नए कार्यों को निष्पादित करें. इसका परीक्षण कुछ विशिष्ट तरीकों से किया जा सकता है:
1) अपरिचित वस्तुएँ: क्या मॉडल किसी कार्य को उन वस्तुओं से परिचित कराने पर दोहरा सकता है जिन पर उसे प्रशिक्षित नहीं किया गया है? इस पहलू में सफलता कैमरे से दृश्य फ़ीड को वेक्टर में परिवर्तित करने पर निर्भर करती है, जिसे भाषा मॉडल व्याख्या कर सकता है। तब मॉडल को इसके अर्थ को समझने में सक्षम होना चाहिए, एक शब्द को उसके वास्तविक दुनिया समकक्ष के साथ जोड़ना चाहिए, और बाद में रोबोटिक बांह को तदनुसार कार्य करने के लिए मार्गदर्शन करना चाहिए।
2) विभिन्न पृष्ठभूमियां: जब अधिकांश विज़ुअल फ़ीड में नए तत्व शामिल होते हैं तो मॉडल कैसे प्रतिक्रिया देता है क्योंकि कार्य के स्थान की पृष्ठभूमि पूरी तरह से बदल दी गई है? उदाहरण के लिए, तालिकाओं में बदलाव या यहां तक कि प्रकाश की स्थिति में बदलाव।
3) विविध वातावरण: पिछले बिंदु को आगे बढ़ाते हुए, यदि पूरा स्थान ही अलग हो तो क्या होगा?
मनुष्यों के लिए, ये परिदृश्य सीधे प्रतीत होते हैं - स्वाभाविक रूप से, यदि कोई अपने कमरे में कैन को त्याग सकता है, तो उसे बाहर भी ऐसा करने में सक्षम होना चाहिए, है ना? (एक साइड नोट पर, मैंने पार्कों में कुछ व्यक्तियों को इस सरल प्रतीत होने वाले कार्य से संघर्ष करते हुए देखा है)। फिर भी, मशीनरी के लिए, ये चुनौतियाँ हैं जिनका समाधान किया जाना बाकी है।
ग्राफ़िकल डेटा से पता चलता है कि जब इन नई परिस्थितियों को अपनाने की बात आती है तो आरटी-2 मॉडल अपने कुछ पूर्ववर्तियों से बेहतर प्रदर्शन करता है। यह श्रेष्ठता काफी हद तक एक विस्तृत भाषा मॉडल का लाभ उठाने से उपजी है, जो अपने प्रशिक्षण चरण के दौरान संसाधित किए गए ढेर सारे पाठों से समृद्ध है।
शोधकर्ताओं द्वारा उजागर की गई एक बाधा पूरी तरह से नए कौशल को अपनाने में मॉडल की असमर्थता है। उदाहरण के लिए, यदि यह उसके प्रशिक्षण का हिस्सा नहीं है, तो वह किसी वस्तु को बायीं या दायीं ओर से उठाना समझ नहीं पाएगा। इसके विपरीत, भाषा मॉडल पसंद करते हैं ChatGPT इस बाधा को काफी सहजता से पार कर लिया है. असंख्य कार्यों में बड़ी मात्रा में डेटा संसाधित करके, ये मॉडल तेजी से समझ सकते हैं और नए अनुरोधों पर कार्य कर सकते हैं, भले ही उन्होंने पहले कभी उनका सामना न किया हो।
परंपरागत रूप से, रोबोट जटिल प्रणालियों के संयोजन का उपयोग करके काम करते हैं। इन सेटअपों में, उच्च-स्तरीय तर्क प्रणालियाँ और मूलभूत हेरफेर प्रणालियाँ अक्सर कुशल संचार के बिना बातचीत करती हैं, एक खेल खेलने के समान "टूटे हुए फ़ोन" का. कल्पना करें कि आप मानसिक रूप से किसी क्रिया की संकल्पना कर रहे हैं, फिर उसे निष्पादन के लिए अपने शरीर पर रिले करने की आवश्यकता है। नया पेश किया गया आरटी-2 मॉडल इस प्रक्रिया को सुव्यवस्थित करता है। यह एकल भाषा मॉडल को परिष्कृत तर्क करने के साथ-साथ रोबोट को सीधे आदेश भेजने का अधिकार देता है। यह दर्शाता है कि न्यूनतम प्रशिक्षण डेटा के साथ, रोबोट उन गतिविधियों को अंजाम दे सकता है जो उसने स्पष्ट रूप से नहीं सीखी हैं।
उदाहरण के लिए, पुरानी प्रणालियों को कचरा त्यागने में सक्षम बनाने के लिए, उन्हें कचरे की पहचान करने, उठाने और निपटान करने के लिए विशिष्ट प्रशिक्षण की आवश्यकता होती है। इसके विपरीत, आरटी-2 के पास पहले से ही कचरे की बुनियादी समझ है, वह इसे लक्षित प्रशिक्षण के बिना पहचान सकता है, और कार्रवाई पर पूर्व निर्देश के बिना भी इसका निपटान कर सकता है। इस सूक्ष्म प्रश्न पर विचार करें, "अपशिष्ट क्या होता है?" इसे औपचारिक रूप देना एक चुनौतीपूर्ण अवधारणा है। एक चिप बैग या केले का छिलका उपभोग के बाद एक वस्तु से बेकार वस्तु में परिवर्तित हो जाता है। ऐसी जटिलताओं को स्पष्ट स्पष्टीकरण या अलग प्रशिक्षण की आवश्यकता नहीं है; आरटी-2 अपनी अंतर्निहित समझ का उपयोग करके उन्हें समझता है और तदनुसार कार्य करता है।
यहां बताया गया है कि यह प्रगति महत्वपूर्ण क्यों है और इसके भविष्य के निहितार्थ क्या हैं:
- भाषा मॉडल, जैसे आरटी-2, सर्वव्यापी संज्ञानात्मक इंजन के रूप में कार्य करते हैं। विभिन्न क्षेत्रों में ज्ञान को सामान्य बनाने और स्थानांतरित करने की उनकी क्षमता का मतलब है कि वे विभिन्न अनुप्रयोगों के लिए अनुकूल हैं।
- शोधकर्ताओं ने जानबूझकर अपने अध्ययन के लिए सबसे उन्नत मॉडल का उपयोग नहीं किया, उनका लक्ष्य यह सुनिश्चित करना था कि प्रत्येक मॉडल एक सेकंड के भीतर प्रतिक्रिया दे (मतलब कम से कम 1 हर्ट्ज की रोबोटिक कार्रवाई आवृत्ति)। काल्पनिक रूप से, जैसे एक मॉडल को एकीकृत करना GPT-4 और एक बेहतर दृश्य मॉडल और भी अधिक सम्मोहक परिणाम प्राप्त हो सकते हैं।
- व्यापक डेटा अभी भी दुर्लभ है. हालाँकि, वर्तमान स्थिति से फैक्ट्री उत्पादन लाइनों से लेकर घरेलू कामकाज तक के समग्र डेटासेट में परिवर्तन में लगभग एक से दो साल लगने का अनुमान है। यह एक अस्थायी अनुमान है, इसलिए क्षेत्र के विशेषज्ञ अधिक सटीकता प्रदान कर सकते हैं। डेटा का यह प्रवाह अनिवार्य रूप से महत्वपूर्ण प्रगति को बढ़ावा देगा।
- जबकि RT-2 को एक विशिष्ट तकनीक का उपयोग करके विकसित किया गया था, कई अन्य विधियाँ मौजूद हैं। भविष्य में इन पद्धतियों का और भी मिश्रण होने की संभावना है रोबोटिक क्षमताओं को बढ़ाना. एक संभावित दृष्टिकोण में मानवीय गतिविधियों के वीडियो का उपयोग करके रोबोटों को प्रशिक्षित करना शामिल हो सकता है। विशेष रिकॉर्डिंग की कोई आवश्यकता नहीं है - टिकटॉक और यूट्यूब जैसे प्लेटफ़ॉर्म ऐसी सामग्री का एक विशाल भंडार प्रदान करते हैं।
एआई के बारे में और पढ़ें:
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।
और अधिक लेखदामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।