मार्च २०,२०२१

GPT-4 Outperforms GPT-3.5 विभिन्न प्रकार के अध्ययन बेंचमार्क पर बोर्ड भर में

प्रकाशित: मार्च 15, 2023 प्रातः 7:15 बजे अद्यतन: मार्च 15, 2023 प्रातः 7:15 बजे

संक्षेप में

RSI GPT-4 की तुलना में उच्चतर ग्रेड सीमा हासिल की है GPT-3विभिन्न बेंचमार्क पर .5।

यह एक बड़ी उपलब्धि है क्योंकि इससे पता चलता है कि मशीनें न केवल मानव जैसी बुद्धि के लिए सक्षम हैं बल्कि हमसे बेहतर प्रदर्शन भी कर सकती हैं, जो एआई के भविष्य और नौकरी के बाजार पर इसके संभावित प्रभाव के बारे में सवाल उठाती हैं।

GPT-4 अत्याधुनिक (एसओटीए) मॉडल द्वारा काफी बेहतर प्रदर्शन किया गया है, जिसमें अतिरिक्त प्रशिक्षण प्रोटोकॉल या बेंचमार्क-विशिष्ट डिज़ाइन का उपयोग करने वाले मॉडल, साथ ही मौजूदा बड़े भाषा मॉडल भी शामिल हैं।

RSI GPT-4 की तुलना में अधिक अंक प्राप्त किये हैं GPT-3विभिन्न बेंचमार्क पर .5। यह मशीनों के लिए एक बड़ी सफलता है क्योंकि यह साबित करता है कि वे अब न केवल उन समस्याओं को हल कर सकते हैं जिनके लिए मूल रूप से डिज़ाइन किया गया था, बल्कि विश्वविद्यालय के छात्रों की तुलना में बेहतर भी कर सकते हैं।

GPT-4 Outperforms GPT-3विभिन्न अध्ययन बेंचमार्कों पर बोर्ड भर में .5

इस परिणाम को देखते समय कुछ बातें ध्यान में रखनी होंगी। सबसे पहले, GPT-4 इन परीक्षाओं के लिए कोई विशेष प्रशिक्षण नहीं दिया गया। यह नवीनतम सार्वजनिक रूप से उपलब्ध परीक्षणों (ओलंपियाड और एपी मुक्त प्रतिक्रिया प्रश्नों के मामले में) या अभ्यास परीक्षाओं के 2022-2023 संस्करण खरीदकर आगे बढ़ा। दूसरे, यह ध्यान रखना महत्वपूर्ण है कि GPT-4इसका प्रदर्शन आवश्यक रूप से मानव परीक्षार्थियों की क्षमताओं को प्रतिबिंबित नहीं कर सकता है, क्योंकि यह सिद्धांतों और एल्गोरिदम के एक अलग सेट पर काम करता है।

के रूप में यह एक बड़ी उपलब्धि है पता चलता है कि मशीनें न केवल मानव जैसी बुद्धि के लिए सक्षम हैं बल्कि हमसे बेहतर प्रदर्शन भी कर सकती हैं। यह एक ऐसे भविष्य का मार्ग प्रशस्त करता है जहाँ मशीनें अधिक से अधिक जटिल कार्य कर सकती हैं, अंततः एक ऐसे भविष्य की ओर ले जा सकती हैं जिसमें वे हमारे दैनिक जीवन में हमारी सहायता कर सकें।

RSI GPT-4कुछ कार्यों में मनुष्यों से बेहतर प्रदर्शन करने की क्षमता भविष्य के बारे में सवाल उठाती है कृत्रिम बुद्धिमत्ता और नौकरी बाजार पर इसका संभावित प्रभाव। यह इस क्षेत्र में निरंतर अनुसंधान और विकास की आवश्यकता पर भी प्रकाश डालता है ताकि यह सुनिश्चित किया जा सके कि एआई का नैतिक और जिम्मेदारी से उपयोग किया जाता है।

अधिक पढ़ें: 5 के 2023+ बहुप्रतीक्षित टेक्स्ट-टू-इमेज एआई मॉडल

GPT-4उदाहरण के लिए, शीर्ष 10% परीक्षार्थियों में स्कोर के साथ एक सिम्युलेटेड बार परीक्षा उत्तीर्ण करता है; GPT-3.5 का स्कोर निचले 10% में था। में यह महत्वपूर्ण सुधार हुआ GPT-4इसका प्रदर्शन इसके बड़े प्रशिक्षण डेटा और बेहतर वास्तुकला के कारण है। प्राकृतिक भाषा प्रसंस्करण और स्वचालित लेखन सहित विभिन्न क्षेत्रों में इसके अनुप्रयोगों की एक विस्तृत श्रृंखला होने की उम्मीद है।

GPT-4 इनमें से अधिकांश व्यावसायिक और शैक्षणिक परीक्षाओं में मानव-स्तरीय प्रदर्शन प्रदर्शित होता है। विशेष रूप से, इसने शीर्ष 10% परीक्षार्थियों में स्कोर के साथ यूनिफ़ॉर्म बार परीक्षा का एक सिम्युलेटेड संस्करण पास किया। परीक्षा में मॉडल की क्षमताएं मुख्य रूप से पूर्व-प्रशिक्षण प्रक्रिया से उत्पन्न होती हैं और आरएलएचएफ से महत्वपूर्ण रूप से प्रभावित नहीं होती हैं। बहुविकल्पीय प्रश्नों पर, दोनों आधार GPT-4 मॉडल और आरएलएचएफ मॉडल ने परीक्षण किए गए परीक्षण के डेवलपर्स के बीच औसतन समान रूप से अच्छा प्रदर्शन किया।

अधिकांश अत्याधुनिक (SOTA) मॉडल, जिनमें वे भी शामिल हैं जो अतिरिक्त प्रशिक्षण प्रोटोकॉल या बेंचमार्क-विशिष्ट डिज़ाइन का उपयोग कर सकते हैं, साथ ही साथ मौजूदा बड़े भाषा मॉडल, द्वारा काफी बेहतर प्रदर्शन किया गया है GPT-4.

GPT-4शैक्षणिक मानकों के संदर्भ में प्रदर्शन। डेवलपर्स कंट्रास्ट GPT-4 एलएम-मूल्यांकित कुछ-शॉट के लिए सर्वोत्तम SOTA के साथ-साथ बेंचमार्क-विशिष्ट प्रशिक्षण के साथ सर्वोत्तम SOTA के साथ। ड्रॉप के अपवाद के साथ, GPT-4 बेंचमार्क-विशिष्ट प्रशिक्षण के साथ सभी बेंचमार्क और SOTA पर सभी मौजूदा एलएम से बेहतर प्रदर्शन करता है।

आंतरिक रूप से, डेवलपर्स उपयोग कर रहे हैं GPT-4, जिसका प्रोग्रामिंग, बिक्री, समर्थन और सामग्री मॉडरेशन जैसी गतिविधियों पर महत्वपूर्ण प्रभाव पड़ा है। हमारी संरेखण पद्धति का दूसरा चरण अब चल रहा है क्योंकि डेवलपर्स इसका उपयोग एआई परिणामों की समीक्षा में मनुष्यों की सहायता के लिए करते हैं।

MMLU (मैसिव मल्टी-टास्क लैंग्वेज अंडरस्टैंडिंग) डेटासेट में विभिन्न कार्यों (गणित, जीव विज्ञान, कानून, सामाजिक और मानव विज्ञान, आदि सहित 57 डोमेन में फैले) में भाषा की समझ पर विषयों की एक विस्तृत श्रृंखला से प्रश्न शामिल हैं। प्रश्न के चार संभावित उत्तर हैं, जिनमें से एक सही है। अर्थात्, यादृच्छिक अनुमान 25% सही उत्तरों का परिणाम दिखाता है। प्रश्नों और उनकी कठिनाइयों के उदाहरण के लिए नीचे दी गई तस्वीर देखें। औसत व्यक्ति-मार्कर (अर्थात, यह वैज्ञानिक नहीं है, प्रोफेसर नहीं है - एक सामान्य व्यक्ति जो मार्कअप के रूप में चांदनी देता है) 35% प्रश्नों का सही उत्तर देता है; हालाँकि, विशेषज्ञ +/- 90% के स्कोर तक पहुँच सकते हैं।

का प्रदर्शन GPT-4 एमएमएलयू पर अंग्रेजी में पहले के मॉडल की तुलना में कई भाषाओं में। GPT-4 जांच की गई बड़ी संख्या में भाषाओं के लिए मौजूदा भाषा मॉडल के अंग्रेजी-भाषा प्रदर्शन से अधिक है, जिसमें लातवियाई, वेल्श और स्वाहिली जैसी कम संसाधन वाली भाषाएं भी शामिल हैं।

अधिक पढ़ें: Google पर AI-संचालित बिंग का उपयोग करने के 5 कारण

मूल रूप से, संपूर्ण डेटासेट अंग्रेजी में था। लेकिन क्या होगा यदि प्रश्नों और उत्तरों का अन्य भाषाओं में अनुवाद किया जाए, विशेषकर कम आम भाषाओं में? क्या मॉडल किसी तरह उनके लिए काम करेगा? इस परीक्षण में अनुवाद के लिए Microsoft Azure Translate सेवा का उपयोग किया गया था। अनुवाद उत्तम नहीं हैं; कुछ मामलों में, महत्वपूर्ण जानकारी खो जाती है। हालाँकि, इस मामले में भी, GPT-4 अन्य भाषाओं में अच्छा प्रदर्शन करता है। एमएमएलयू के अनुवादित संस्करणों में, GPT-4 जांच की गई 24 भाषाओं में से 26 में यह अन्य बड़े मॉडलों (Google सहित) के अंग्रेजी स्तर से बेहतर प्रदर्शन करता है।

इससे ज्यादा और क्या, GPT-4 की तुलना में दुर्लभ भाषाओं में बेहतर प्रदर्शन करता है ChatGPT अंग्रेजी में किया (ChatGPT ने 70.1% का स्कोर हासिल किया, जबकि थाई के लिए नए मॉडल का स्कोर 71.8% था)। अंग्रेजी में टेस्ट का स्कोर सबसे अधिक था GPT-4 Google के सबसे बड़े PaLM सहित अन्य मॉडलों की तुलना में 10% बेहतर प्रदर्शन कर रहा है। इसने 86.4% का स्कोर हासिल किया, जबकि विशेषज्ञों के एक समूह ने-90%।

2023 की गर्मियों तक, AI शक्ति के एक नए स्तर पर पहुंच सकता है ChatGPT, एक चैटबॉट जो इसका उपयोग करता है GPT-4 एल्गोरिदम और Outperforms GPT-3 570 के कारक से. विभिन्न प्रकार के तत्व इसमें योगदान करते हैं ChatGPTकी सफलता, जिसमें इसका डिज़ाइन अधिक "मानव-जैसा" होना और इसकी प्रभावशीलता और सटीकता को बढ़ाने के लिए अत्याधुनिक डेटा खनन और प्राकृतिक भाषा प्रसंस्करण का उपयोग शामिल है।
Microsoft और OpenAI जनवरी में अपने सहयोग नवीनीकरण और एआई-संवर्धित लुकअप क्षमताओं को अपनाने के लिए बिंग सर्च की योजना की घोषणा की। अत्यंत परिष्कृत GPT3.5 मॉडल का प्रतिस्थापन, GPT4, अभी लॉन्च किया गया है, और इसमें प्राकृतिक भाषा प्रश्नों को समझने और अधिक सटीक परिणाम देने के लिए Bing search की क्षमता को बहुत अधिक बढ़ाने की क्षमता है। कुछ गलत होने की स्थिति में एक अच्छा बैकअप प्लान रखना एक अच्छा विचार है।

पढ़ें इससे जुड़ी और खबरें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव