जुलाई 20, 2023

स्टैनफोर्ड का अध्ययन इसकी पुष्टि करता है GPT-4 बेवकूफ होता जा रहा है

प्रकाशित: जुलाई 20, 2023 प्रातः 10:19 बजे अद्यतन: जुलाई 20, 2023 प्रातः 10:20 बजे

संपादित और तथ्य-जांचा गया: 20 जुलाई, 2023 सुबह 10:19 बजे

संक्षेप में

स्टैनफोर्ड और यूसी बर्कले के मातेई ज़हरिया और उनकी टीम के एक अध्ययन ने प्रदर्शन की तुलना की GPT-4 और ChatGPT मॉडल की प्रभावशीलता के बारे में उपयोगकर्ता की चिंताओं को दूर करने के लिए।

अध्ययन ने चार विशिष्ट कार्यों पर मॉडल का मूल्यांकन किया: गणित, कोडिंग, संवेदनशीलता और दृश्य तर्क।

स्टैनफोर्ड और यूसी बर्कले से मातेई ज़हरिया और उनकी टीम एक अध्ययन आयोजित जिसके प्रदर्शन की तुलना की गई GPT-4 सेवा मेरे ChatGPT. इस जांच में उपयोगकर्ता की चिंताओं को दूर करने की कोशिश की गई कि मॉडल की प्रभावशीलता कम हो गई है।

स्टैनफोर्ड का अध्ययन इसकी पुष्टि करता है GPT-4 बेवकूफ होता जा रहा है — क्रेडिट: Metaverse Post

सम्बंधित: GPT-4 बनाम GPT-3: नया मॉडल क्या पेश करता है?

शोधकर्ताओं ने चार विशिष्ट कार्यों पर मॉडल का मूल्यांकन करने के लिए अध्ययन तैयार किया। इन कार्यों में शामिल हैं:

गणित: मॉडल की यह निर्धारित करने की क्षमता कि कोई दी गई संख्या अभाज्य है या समग्र।
कोडिंग: सार्थक और कार्यात्मक कोड उत्पन्न करने के लिए मॉडल की क्षमता का आकलन करना।
संवेदनशीलता: संभावित "विषाक्त" सामग्री वाले प्रश्नों पर मॉडल की प्रतिक्रियाओं का विश्लेषण करना।
विज़ुअल रीज़निंग: एआरसी बेंचमार्क का उपयोग करके दृश्य पैटर्न से जुड़ी समस्याओं को हल करने के लिए मॉडल की योग्यता का परीक्षण करना। प्रतिभागियों को छवियों के एक सेट में पैटर्न की पहचान करनी थी और एक नए उदाहरण को हल करने के लिए उन्हें लागू करना था।

गणित के क्षेत्र में, दोनों GPT-4 संस्करण, मार्च और जून रिलीज़, ने अभाज्य और मिश्रित संख्याओं को निर्धारित करने में लगातार सटीकता प्रदर्शित की। मॉडलों ने विश्वसनीय परिणाम प्रदान करते हुए इन गणनाओं को संभालने में दक्षता प्रदर्शित की।

कोडिंग की ओर आगे बढ़ते हुए, GPT-4 अपने पूर्ववर्तियों की तुलना में सार्थक और कार्यात्मक कोड उत्पन्न करने की बेहतर क्षमता प्रदर्शित की। मॉडल की कोड जनरेशन क्षमताओं ने वादा दिखाया और डेवलपर्स और प्रोग्रामर के लिए संभावित लाभ की पेशकश की।

संवेदनशीलता के संबंध में, अध्ययन ने संभावित रूप से हानिकारक या आपत्तिजनक सामग्री वाले प्रश्नों पर मॉडलों की प्रतिक्रियाओं का आकलन किया। GPT-4 उन्नत संवेदनशीलता विश्लेषण का प्रदर्शन किया और ऐसे संदर्भों में उचित प्रतिक्रिया प्रदान करने की बेहतर क्षमता प्रदर्शित की। यह संभावित समस्याग्रस्त आउटपुट के बारे में उपयोगकर्ता की चिंताओं को दूर करने की दिशा में एक सकारात्मक कदम का प्रतीक है।

अंत में, एआरसी बेंचमार्क पर आधारित दृश्य तर्क कार्य दोनों द्वारा सफलतापूर्वक पूरे किए गए GPT-4 संस्करण. मॉडलों ने छवि सेट के भीतर पैटर्न को प्रभावी ढंग से पहचाना और नए उदाहरणों को हल करने के लिए इन पैटर्न को लागू करने की क्षमता का प्रदर्शन किया। यह दृश्य समझ और तर्क करने की उनकी क्षमता को प्रदर्शित करता है।

परिणाम बताते हैं कि GPT-4 केवल 2% से कुछ अधिक सही उत्तरों के साथ, सटीकता में कमी देखी गई। यह ध्यान रखना महत्वपूर्ण है कि यह विशेष परीक्षण मुख्य रूप से अपनी अंतर्निहित गणितीय क्षमताओं को प्रदर्शित करने के बजाय डेटा को याद करने की मॉडल की क्षमता का आकलन करता है। यह कार्य मेमोरी रिकॉल के इर्द-गिर्द घूमता है, क्योंकि मॉडल में गणना सत्यापन और अनुमान की क्षमता का अभाव है, खासकर जब अभाज्य संख्याओं की बात आती है।

ChatGPT जून तक प्रदर्शन मेट्रिक्स में पर्याप्त वृद्धि देखी गई, जो दस गुना से अधिक का उल्लेखनीय सुधार दर्शाता है। हालाँकि अध्ययन ने इस वृद्धि में योगदान देने वाले विशिष्ट कारकों पर प्रकाश नहीं डाला है, लेकिन यह इस पर प्रकाश डालता है ChatGPTगणितीय तर्क और समस्या-समाधान क्षमताओं में प्रगति।

अध्ययन ने उत्पन्न कोड की गुणवत्ता या शुद्धता का आकलन नहीं किया। इसके बजाय, मॉडल अधिक "कस्टम" व्यवहार प्रदर्शित करते हुए दिखाई दिए, जो उनकी कार्यात्मक सटीकता सुनिश्चित किए बिना कोड स्निपेट पेश करते हैं।

सम्बंधित: 10 में 2023+ सर्वश्रेष्ठ एआई फोटो एन्हांसर्स

गुणवत्ता GPT-4 और ChatGPT उनकी प्रोग्रामिंग क्षमताओं के विश्लेषण के बाद पूछताछ की गई है। हालाँकि, करीब से देखने पर कुछ आकर्षक बारीकियों का पता चलता है जो पहली छापों के विपरीत हैं।

लेखकों ने शुद्धता के लिए कोड को निष्पादित या सत्यापित नहीं किया; उनका मूल्यांकन पूरी तरह से पायथन कोड के रूप में इसकी वैधता पर आधारित था। इसके अतिरिक्त, ऐसा प्रतीत होता है कि मॉडलों ने डेकोरेटर का उपयोग करके एक विशिष्ट कोड फ़्रेमिंग तकनीक सीखी है, जिससे अनजाने में कोड निष्पादन में बाधा उत्पन्न हुई।

परिणामस्वरूप, यह स्पष्ट हो जाता है कि न तो परिणाम और न ही प्रयोग को मॉडल गिरावट का प्रमाण माना जा सकता है। इसके बजाय, मॉडल प्रतिक्रियाएं उत्पन्न करने के लिए एक अलग दृष्टिकोण प्रदर्शित करते हैं, जो संभावित रूप से उनके प्रशिक्षण में भिन्नता को दर्शाता है।

की प्रोग्रामिंग और गणित क्षमताओं की एक परीक्षा GPT-4 और ChatGPT दिलचस्प निष्कर्षों पर प्रकाश डाला है। प्रारंभिक धारणाओं के विपरीत, मॉडलों ने कुछ क्षेत्रों में उल्लेखनीय सुधार प्रदर्शित किए जबकि अन्य में व्यवहारिक परिवर्तन प्रदर्शित किए।

जब प्रोग्रामिंग कार्यों की बात आती है, तो दोनों मॉडलों ने "गलत" संकेतों का जवाब देने में कमी देखी GPT-4 ऐसे मामलों में चार गुना से अधिक की कमी प्रदर्शित की जा रही है। इसके अतिरिक्त, विज़ुअल रीज़निंग कार्य पर, दोनों मॉडलों के लिए प्रतिक्रियाओं की गुणवत्ता में कुछ प्रतिशत अंकों का सुधार हुआ। ये अवलोकन प्रदर्शन में गिरावट के बजाय प्रगति का संकेत देते हैं।

हालाँकि, गणितीय कौशल का मूल्यांकन एक दिलचस्प तत्व का परिचय देता है। मॉडलों ने लगातार उत्तर के रूप में अभाज्य संख्याएँ प्रदान कीं, जो लगातार "हाँ" प्रतिक्रिया का संकेत देती हैं। फिर भी, नमूने में समग्र संख्याओं को शामिल करने पर, यह स्पष्ट हो गया कि मॉडलों ने अपना व्यवहार बदल दिया और गुणवत्ता में गिरावट के बजाय अनिश्चितता का सुझाव देते हुए "नहीं" प्रतिक्रिया देना शुरू कर दिया। यह परीक्षण अपने आप में अनोखा और एकतरफ़ा है, और इसके परिणामों को गुणवत्ता में गिरावट के बजाय मॉडल व्यवहार में बदलाव के लिए जिम्मेदार ठहराया जा सकता है।

यह ध्यान रखना महत्वपूर्ण है कि एपीआई संस्करणों का परीक्षण किया गया था, न कि ब्राउज़र-आधारित संस्करणों का। हालांकि यह संभव है कि संसाधनों को अनुकूलित करने के लिए ब्राउज़र में मॉडलों में समायोजन किया गया हो, संलग्न अध्ययन में ऐसा नहीं है defiइस परिकल्पना को सकारात्मक रूप से सिद्ध करें। ऐसे बदलावों के प्रभाव की तुलना वास्तविक मॉडल डाउनग्रेड से की जा सकती है, जिससे उन उपयोगकर्ताओं के लिए संभावित चुनौतियाँ पैदा हो सकती हैं जो विशिष्ट कामकाज पर भरोसा करते हैं संकेतों और संचित अनुभव।

की दशा में GPT-4 एपीआई अनुप्रयोगों, व्यवहार में इन विचलनों के ठोस परिणाम हो सकते हैं। कोड जो किसी विशिष्ट उपयोगकर्ता की आवश्यकताओं और कार्यों के आधार पर विकसित किया गया था, यदि मॉडल के व्यवहार में परिवर्तन होता है तो वह अब इच्छित कार्य नहीं कर सकता है।

यह अनुशंसा की जाती है कि उपयोगकर्ता अपने वर्कफ़्लो में समान परीक्षण प्रथाओं को शामिल करें। संकेतों, संलग्न पाठों और अपेक्षित परिणामों का एक सेट बनाकर, उपयोगकर्ता नियमित रूप से अपनी अपेक्षाओं और मॉडल की प्रतिक्रियाओं के बीच स्थिरता की जांच कर सकते हैं। जैसे ही किसी विचलन का पता चलता है, स्थिति को सुधारने के लिए उचित उपाय किए जा सकते हैं।

एआई के बारे में और पढ़ें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव