विश्लेषण टेक्नोलॉजी
अगस्त 01, 2023

Is GPT-4 सुपरचार्ज रोबोटिक्स के बारे में? क्यों RT-2 सब कुछ बदल देता है

संक्षेप में

Google DeepMind ने विज़न-भाषा मॉडल एप्लिकेशन विकसित किया है एंड-टू-एंड रोबोटिक नियंत्रण, विभिन्न क्षेत्रों में ज्ञान को सामान्य बनाने और स्थानांतरित करने की उनकी क्षमता पर ध्यान केंद्रित करना।

बड़ी मात्रा में जानकारी को एन्कोड करने में सक्षम अनुक्रम उत्पन्न करने के लिए डिज़ाइन किया गया RT-2 मॉडल, अपरिचित वस्तुओं, विभिन्न पृष्ठभूमि और विभिन्न वातावरणों सहित विभिन्न परिदृश्यों में परीक्षण किया गया है।

आरटी-2 मॉडल नई परिस्थितियों के अनुकूल ढलने में अपने कुछ पूर्ववर्तियों से बेहतर प्रदर्शन करता है, जिसका मुख्य कारण इसका विस्तृत भाषा मॉडल है।

Google DeepMind ने दृष्टि-भाषा मॉडल अनुप्रयोगों की जांच की, एंड-टू-एंड रोबोटिक नियंत्रण के लिए उनकी क्षमता पर ध्यान केंद्रित कर रहे हैं। इस जांच में यह निर्धारित करने की कोशिश की गई कि क्या ये मॉडल व्यापक सामान्यीकरण में सक्षम थे। इसके अलावा, इसने जांच की कि क्या कुछ संज्ञानात्मक कार्य, जैसे तर्क और योजना, जो अक्सर व्यापक भाषा मॉडल से जुड़े होते हैं, इस संदर्भ में उभर सकते हैं।

Is GPT-4 सुपरचार्ज रोबोटिक्स के बारे में? क्यों RT-2 सब कुछ बदल देता है
क्रेडिट: Metaverse Post / Stable Diffusion

इस अन्वेषण के पीछे का मूल आधार आंतरिक रूप से बड़े भाषा मॉडल (एलएलएम) की विशेषताओं से जुड़ा हुआ है। ऐसा मॉडल उत्पन्न करने के लिए डिज़ाइन किए गए हैं सूचना की एक विस्तृत श्रृंखला को एन्कोड करने में सक्षम कोई भी अनुक्रम। इसमें न केवल सामान्य भाषा या पायथन जैसी प्रोग्रामिंग कोड, बल्कि विशिष्ट कमांड भी शामिल हैं जो रोबोटिक क्रियाओं का मार्गदर्शन कर सकता है.

इसे परिप्रेक्ष्य में रखने के लिए, विशिष्ट स्ट्रिंग अनुक्रमों को समझने और क्रियाशील रोबोटिक कमांड में अनुवाद करने की मॉडल की क्षमता पर विचार करें। उदाहरण के तौर पर, एक उत्पन्न स्ट्रिंग जैसे "1 128 91 241 5 101 127 217" को निम्नलिखित तरीके से डिकोड किया जा सकता है:

  • प्रारंभिक अंक, एक, दर्शाता है कि कार्य अभी भी जारी है और पूरा नहीं हुआ है।
  • संख्याओं का अगला त्रय, 128-91-241, अंतरिक्ष के तीन आयामों में एक सापेक्ष और सामान्यीकृत बदलाव को दर्शाता है।
  • समापन सेट, 101-127-217, रोबोट के कार्यात्मक बांह खंड की रोटेशन डिग्री को इंगित करता है।

ऐसा विन्यास रोबोट को सक्षम बनाता है स्वतंत्रता की छह डिग्री में अपने राज्य को संशोधित करने के लिए। एक समानांतर रेखा खींचना, जैसे भाषा मॉडल इंटरनेट पर विशाल पाठ्य डेटा से सामान्य विचारों और अवधारणाओं को आत्मसात करने के लिए, आरटी-2 मॉडल रोबोटिक क्रियाओं को निर्देशित करने के लिए वेब-आधारित जानकारी से ज्ञान निकालता है।

इसके संभावित निहितार्थ महत्वपूर्ण हैं। यदि कोई मॉडल प्रक्षेप पथों के एक क्यूरेटेड सेट के संपर्क में आता है जो अनिवार्य रूप से इंगित करता है, "एक विशेष परिणाम प्राप्त करने के लिए, रोबोट की पकड़ तंत्र को एक विशिष्ट तरीके से आगे बढ़ने की जरूरत है," तो यह उचित है कि ट्रांसफार्मर सुसंगत क्रियाएं उत्पन्न कर सकता है यह इनपुट.

मूल्यांकन के अंतर्गत एक महत्वपूर्ण पहलू क्षमता थी प्रशिक्षण के दौरान शामिल न किए गए नए कार्यों को निष्पादित करें. इसका परीक्षण कुछ विशिष्ट तरीकों से किया जा सकता है:

1) अपरिचित वस्तुएँ: क्या मॉडल किसी कार्य को उन वस्तुओं से परिचित कराने पर दोहरा सकता है जिन पर उसे प्रशिक्षित नहीं किया गया है? इस पहलू में सफलता कैमरे से दृश्य फ़ीड को वेक्टर में परिवर्तित करने पर निर्भर करती है, जिसे भाषा मॉडल व्याख्या कर सकता है। तब मॉडल को इसके अर्थ को समझने में सक्षम होना चाहिए, एक शब्द को उसके वास्तविक दुनिया समकक्ष के साथ जोड़ना चाहिए, और बाद में रोबोटिक बांह को तदनुसार कार्य करने के लिए मार्गदर्शन करना चाहिए।

2) विभिन्न पृष्ठभूमियां: जब अधिकांश विज़ुअल फ़ीड में नए तत्व शामिल होते हैं तो मॉडल कैसे प्रतिक्रिया देता है क्योंकि कार्य के स्थान की पृष्ठभूमि पूरी तरह से बदल दी गई है? उदाहरण के लिए, तालिकाओं में बदलाव या यहां तक ​​कि प्रकाश की स्थिति में बदलाव।

3) विविध वातावरण: पिछले बिंदु को आगे बढ़ाते हुए, यदि पूरा स्थान ही अलग हो तो क्या होगा?

मनुष्यों के लिए, ये परिदृश्य सीधे प्रतीत होते हैं - स्वाभाविक रूप से, यदि कोई अपने कमरे में कैन को त्याग सकता है, तो उसे बाहर भी ऐसा करने में सक्षम होना चाहिए, है ना? (एक साइड नोट पर, मैंने पार्कों में कुछ व्यक्तियों को इस सरल प्रतीत होने वाले कार्य से संघर्ष करते हुए देखा है)। फिर भी, मशीनरी के लिए, ये चुनौतियाँ हैं जिनका समाधान किया जाना बाकी है।

ग्राफ़िकल डेटा से पता चलता है कि जब इन नई परिस्थितियों को अपनाने की बात आती है तो आरटी-2 मॉडल अपने कुछ पूर्ववर्तियों से बेहतर प्रदर्शन करता है। यह श्रेष्ठता काफी हद तक एक विस्तृत भाषा मॉडल का लाभ उठाने से उपजी है, जो अपने प्रशिक्षण चरण के दौरान संसाधित किए गए ढेर सारे पाठों से समृद्ध है।

शोधकर्ताओं द्वारा उजागर की गई एक बाधा पूरी तरह से नए कौशल को अपनाने में मॉडल की असमर्थता है। उदाहरण के लिए, यदि यह उसके प्रशिक्षण का हिस्सा नहीं है, तो वह किसी वस्तु को बायीं या दायीं ओर से उठाना समझ नहीं पाएगा। इसके विपरीत, भाषा मॉडल पसंद करते हैं ChatGPT इस बाधा को काफी सहजता से पार कर लिया है. असंख्य कार्यों में बड़ी मात्रा में डेटा संसाधित करके, ये मॉडल तेजी से समझ सकते हैं और नए अनुरोधों पर कार्य कर सकते हैं, भले ही उन्होंने पहले कभी उनका सामना न किया हो।

परंपरागत रूप से, रोबोट जटिल प्रणालियों के संयोजन का उपयोग करके काम करते हैं। इन सेटअपों में, उच्च-स्तरीय तर्क प्रणालियाँ और मूलभूत हेरफेर प्रणालियाँ अक्सर कुशल संचार के बिना बातचीत करती हैं, एक खेल खेलने के समान "टूटे हुए फ़ोन" का. कल्पना करें कि आप मानसिक रूप से किसी क्रिया की संकल्पना कर रहे हैं, फिर उसे निष्पादन के लिए अपने शरीर पर रिले करने की आवश्यकता है। नया पेश किया गया आरटी-2 मॉडल इस प्रक्रिया को सुव्यवस्थित करता है। यह एकल भाषा मॉडल को परिष्कृत तर्क करने के साथ-साथ रोबोट को सीधे आदेश भेजने का अधिकार देता है। यह दर्शाता है कि न्यूनतम प्रशिक्षण डेटा के साथ, रोबोट उन गतिविधियों को अंजाम दे सकता है जो उसने स्पष्ट रूप से नहीं सीखी हैं।

उदाहरण के लिए, पुरानी प्रणालियों को कचरा त्यागने में सक्षम बनाने के लिए, उन्हें कचरे की पहचान करने, उठाने और निपटान करने के लिए विशिष्ट प्रशिक्षण की आवश्यकता होती है। इसके विपरीत, आरटी-2 के पास पहले से ही कचरे की बुनियादी समझ है, वह इसे लक्षित प्रशिक्षण के बिना पहचान सकता है, और कार्रवाई पर पूर्व निर्देश के बिना भी इसका निपटान कर सकता है। इस सूक्ष्म प्रश्न पर विचार करें, "अपशिष्ट क्या होता है?" इसे औपचारिक रूप देना एक चुनौतीपूर्ण अवधारणा है। एक चिप बैग या केले का छिलका उपभोग के बाद एक वस्तु से बेकार वस्तु में परिवर्तित हो जाता है। ऐसी जटिलताओं को स्पष्ट स्पष्टीकरण या अलग प्रशिक्षण की आवश्यकता नहीं है; आरटी-2 अपनी अंतर्निहित समझ का उपयोग करके उन्हें समझता है और तदनुसार कार्य करता है।

यहां बताया गया है कि यह प्रगति महत्वपूर्ण क्यों है और इसके भविष्य के निहितार्थ क्या हैं:

  • भाषा मॉडल, जैसे आरटी-2, सर्वव्यापी संज्ञानात्मक इंजन के रूप में कार्य करते हैं। विभिन्न क्षेत्रों में ज्ञान को सामान्य बनाने और स्थानांतरित करने की उनकी क्षमता का मतलब है कि वे विभिन्न अनुप्रयोगों के लिए अनुकूल हैं।
  • शोधकर्ताओं ने जानबूझकर अपने अध्ययन के लिए सबसे उन्नत मॉडल का उपयोग नहीं किया, उनका लक्ष्य यह सुनिश्चित करना था कि प्रत्येक मॉडल एक सेकंड के भीतर प्रतिक्रिया दे (मतलब कम से कम 1 हर्ट्ज की रोबोटिक कार्रवाई आवृत्ति)। काल्पनिक रूप से, जैसे एक मॉडल को एकीकृत करना GPT-4 और एक बेहतर दृश्य मॉडल और भी अधिक सम्मोहक परिणाम प्राप्त हो सकते हैं।
  • व्यापक डेटा अभी भी दुर्लभ है. हालाँकि, वर्तमान स्थिति से फैक्ट्री उत्पादन लाइनों से लेकर घरेलू कामकाज तक के समग्र डेटासेट में परिवर्तन में लगभग एक से दो साल लगने का अनुमान है। यह एक अस्थायी अनुमान है, इसलिए क्षेत्र के विशेषज्ञ अधिक सटीकता प्रदान कर सकते हैं। डेटा का यह प्रवाह अनिवार्य रूप से महत्वपूर्ण प्रगति को बढ़ावा देगा।
  • जबकि RT-2 को एक विशिष्ट तकनीक का उपयोग करके विकसित किया गया था, कई अन्य विधियाँ मौजूद हैं। भविष्य में इन पद्धतियों का और भी मिश्रण होने की संभावना है रोबोटिक क्षमताओं को बढ़ाना. एक संभावित दृष्टिकोण में मानवीय गतिविधियों के वीडियो का उपयोग करके रोबोटों को प्रशिक्षित करना शामिल हो सकता है। विशेष रिकॉर्डिंग की कोई आवश्यकता नहीं है - टिकटॉक और यूट्यूब जैसे प्लेटफ़ॉर्म ऐसी सामग्री का एक विशाल भंडार प्रदान करते हैं।

एआई के बारे में और पढ़ें:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

और अधिक लेख
दामिर यालालोव
दामिर यालालोव

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

Hot Stories
हमारे समाचार पत्र शामिल हों।
नवीनतम समाचार

अस्थिरता के बीच बिटकॉइन ईटीएफ के प्रति संस्थागत रुचि बढ़ी

13एफ फाइलिंग के माध्यम से प्रकटीकरण से पता चलता है कि उल्लेखनीय संस्थागत निवेशक बिटकॉइन ईटीएफ में रुचि ले रहे हैं, जो इसकी बढ़ती स्वीकार्यता को रेखांकित करता है...

अधिक जानिए

सजा का दिन आ गया: सीजेड का भाग्य अधर में लटक गया क्योंकि अमेरिकी अदालत ने डीओजे की याचिका पर विचार किया

चांगपेंग झाओ आज सिएटल की एक अमेरिकी अदालत में सजा का सामना करने के लिए तैयार हैं।

अधिक जानिए
हमारे इनोवेटिव टेक समुदाय से जुड़ें
विस्तार में पढ़ें
अधिक पढ़ें
न्यूलिंक बायबिट पर लॉन्च हुआ Web3 आईडीओ प्लेटफार्म. सदस्यता चरण 13 मई तक बढ़ा दिया गया है
Markets समाचार रिपोर्ट टेक्नोलॉजी
न्यूलिंक बायबिट पर लॉन्च हुआ Web3 आईडीओ प्लेटफार्म. सदस्यता चरण 13 मई तक बढ़ा दिया गया है
9 मई 2024
UXLINK और Binance ने नए अभियान पर सहयोग किया, उपयोगकर्ताओं को 20M UXUY अंक प्रदान किए Airdrop पुरस्कार
Markets समाचार रिपोर्ट टेक्नोलॉजी
UXLINK और Binance ने नए अभियान पर सहयोग किया, उपयोगकर्ताओं को 20M UXUY अंक प्रदान किए Airdrop पुरस्कार
9 मई 2024
साइड प्रोटोकॉल ने प्रोत्साहन टेस्टनेट लॉन्च किया और इनसाइडर पॉइंट सिस्टम की शुरुआत की, जिससे उपयोगकर्ता साइड पॉइंट अर्जित कर सकें
Markets समाचार रिपोर्ट टेक्नोलॉजी
साइड प्रोटोकॉल ने प्रोत्साहन टेस्टनेट लॉन्च किया और इनसाइडर पॉइंट सिस्टम की शुरुआत की, जिससे उपयोगकर्ता साइड पॉइंट अर्जित कर सकें
9 मई 2024
Web3 और मई 2024 में क्रिप्टो इवेंट्स: ब्लॉकचेन में नई तकनीकों और उभरते रुझानों की खोज DeFi
संग्रह व्यवसाय Markets टेक्नोलॉजी
Web3 और मई 2024 में क्रिप्टो इवेंट्स: ब्लॉकचेन में नई तकनीकों और उभरते रुझानों की खोज DeFi
9 मई 2024
क्रिप्टोमेरिया लैब्स पीटीई। लिमिटेड