समाचार रिपोर्ट एसएमडब्ल्यू टेक्नोलॉजी
30 मई 2023

GPT-4यूएस बार परीक्षा में का प्रदर्शन इसके दावों का खंडन करता है

संक्षेप में

की परीक्षा GPT-4यूनिफ़ॉर्म बार परीक्षा में प्रदर्शन से अनुमानित और वास्तविक प्रदर्शन के बीच विसंगति का पता चला, जिससे पारदर्शी मूल्यांकन प्रक्रियाओं और सुलभ डेटा के महत्व पर जोर दिया गया।

OpenAI विसंगतियों को दूर करने और विश्वास हासिल करने और विश्वसनीयता सुनिश्चित करने के लिए एआई मॉडल मूल्यांकन के लिए अधिक समावेशी और विश्वसनीय दृष्टिकोण विकसित करने के लिए प्रोत्साहित किया जाता है।

की एक हालिया जांच में GPT-4यूनिफ़ॉर्म बार परीक्षा में प्रदर्शन (उबे), की सटीकता के बारे में संदेह पैदा हो गया है OpenAIमॉडल की सफलता दर के संबंध में के दावे। शुरुआती दावे के विपरीत GPT-4 90% व्यक्तियों से बेहतर प्रदर्शन करता है, निष्कर्ष एआई मॉडल के अनुमानित और वास्तविक प्रदर्शन के बीच एक महत्वपूर्ण विसंगति का सुझाव देते हैं। यह रहस्योद्घाटन ऐसे दावों को मान्य करने के लिए पारदर्शी मूल्यांकन प्रक्रियाओं और सुलभ डेटा के महत्व पर जोर देता है।

GPT-4यूएस बार परीक्षा में का प्रदर्शन उसके दावों का खंडन करता है
@Midjourney

परीक्षा की वास्तविक क्षमताओं का पता लगाने के लिए विभिन्न कारकों पर ध्यान केंद्रित किया गया GPT-4. सबसे पहले, विश्लेषण इलिनोइस में फरवरी की परीक्षाओं से यह पता चला GPT-4का स्कोर करीब आ गया 90th प्रतिशत. हालांकि, यह देखा गया कि ये स्कोर रिटेकर्स से काफी प्रभावित थे जो पहले जुलाई की परीक्षा में असफल रहे थे और इस तरह समग्र औसत से नीचे स्कोर किया था।

इसके अलावा, जुलाई परीक्षा के परिणाम विरोधाभासी थे OpenAIके दावों से यह खुलासा हो रहा है GPT-4 ही होगा मात करना 68% लोग और 48% निबंध। GPT-4जब विभिन्न अवधियों में कई परीक्षणों के आधिकारिक डेटा पर विचार किया गया, तो पहली बार परीक्षा देने वालों (रीटेक को छोड़कर) के खिलाफ प्रदर्शन का मूल्यांकन 63 वें प्रतिशत पर किया गया, जिसमें 41 वें प्रतिशत पर निबंधों का स्कोर काफी कम था।

लाइसेंस प्राप्त व्यक्तियों और लाइसेंस की प्रतीक्षा कर रहे लोगों सहित परीक्षा उत्तीर्ण करने वालों के प्रदर्शन की जांच करके एक अतिरिक्त परिप्रेक्ष्य प्राप्त किया गया था। इस संबंध में, GPT-4का समग्र प्रदर्शन 48वें प्रतिशतक पर था, जबकि निबंधों का प्रदर्शन 15वें प्रतिशतक पर और भी खराब था।

हालाँकि ये निष्कर्ष परेशान करने वाले हैं, लेकिन समीक्षा प्रक्रिया में मानवीय गलती की संभावना पर विचार करना महत्वपूर्ण है। लेख के लेखक मूल्यांकन के लिए शोधकर्ताओं द्वारा उपयोग किए गए नमूने को समझने के महत्व पर जोर देते हैं GPT-4का प्रदर्शन. आधिकारिक डेटा की कमी, विशेष रूप से समग्र रूप में, प्रतिशत की निष्पक्ष तुलना और मूल्यांकन को कठिन बना देती है। स्पष्ट और सुलभ मूल्यांकन तकनीकों की स्थापना करना जिनका सभी हितधारकों द्वारा मूल्यांकन किया जा सके, महत्वपूर्ण है।

इन चिंताओं के जवाब में, OpenAI विसंगतियों को दूर करने का आग्रह किया गया है और अंतर्दृष्टि प्रदान करें मूल्यांकन प्रक्रिया में। विश्वास हासिल करने और कानून जैसे उच्च-दांव वाले डोमेन में एआई मॉडल की विश्वसनीयता सुनिश्चित करने के लिए पारदर्शिता और खुलापन आवश्यक है।

यह ध्यान दिया जाना चाहिए कि लेख में प्राप्त विशिष्ट स्कोर पर चर्चा नहीं की गई है GPT-4, जो 298 बताया गया है। इस स्कोर के महत्व का मूल्यांकन करने के लिए उपयोग की जाने वाली ग्रेडिंग प्रणाली की प्रासंगिक समझ की आवश्यकता होती है। जिस प्रकार एक बच्चा बी के साथ स्कूल से घर आता है, वह या तो उत्सव या निराशा का कारण हो सकता है, की व्याख्या GPT-4का स्कोर नियोजित पैमाने पर निर्भर करता है।

का मूल्यांकन GPT-4बार परीक्षा में प्रदर्शन गंभीर चिंता पैदा करता है की सत्यता के बारे में OpenAIके शुरुआती दावे. अनुमानित और वास्तविक प्रदर्शन के बीच का अंतर स्पष्ट मूल्यांकन प्रणालियों और आसानी से सुलभ डेटा के महत्व पर जोर देता है। OpenAI इन चुनौतियों का समाधान करने और अधिक समावेशी विकास करने के लिए प्रोत्साहित किया जाता है एआई के लिए विश्वसनीय दृष्टिकोण मॉडल मूल्यांकन।

एआई के बारे में और पढ़ें:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

और अधिक लेख
दामिर यालालोव
दामिर यालालोव

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

Hot Stories
हमारे समाचार पत्र शामिल हों।
नवीनतम समाचार

सजा का दिन आ गया: सीजेड का भाग्य अधर में लटक गया क्योंकि अमेरिकी अदालत ने डीओजे की याचिका पर विचार किया

चांगपेंग झाओ आज सिएटल की एक अमेरिकी अदालत में सजा का सामना करने के लिए तैयार हैं।

अधिक जानिए

समुराई वॉलेट संस्थापकों पर डार्कनेट डील में $2B की सुविधा देने का आरोप लगाया गया

समुराई वॉलेट के संस्थापकों की आशंका उद्योग के लिए एक उल्लेखनीय झटके का प्रतिनिधित्व करती है, जो लगातार जारी रहने को रेखांकित करती है ...

अधिक जानिए
हमारे इनोवेटिव टेक समुदाय से जुड़ें
विस्तार में पढ़ें
अधिक पढ़ें
चेनलिंक और रैपिड एडिशन सीसीआईपी-आधारित ब्लॉकचेन एडाप्टर विकसित करने के लिए सहयोग करते हैं
व्यवसाय समाचार रिपोर्ट टेक्नोलॉजी
चेनलिंक और रैपिड एडिशन सीसीआईपी-आधारित ब्लॉकचेन एडाप्टर विकसित करने के लिए सहयोग करते हैं
1 मई 2024
बिटस्माइली ने अल्फानेट वी1 लॉन्च किया, जो बिटकॉइन लेयर 2 नेटवर्क बिटलेयर पर शुरू हुआ
समाचार रिपोर्ट टेक्नोलॉजी
बिटस्माइली ने अल्फानेट वी1 लॉन्च किया, जो बिटकॉइन लेयर 2 नेटवर्क बिटलेयर पर शुरू हुआ
1 मई 2024
अप्रैल 2024 में हैक्स और घोटालों में ऐतिहासिक कमी देखी गई, CertiK ने मार्च से 141% की कमी की रिपोर्ट दी
Markets सुरक्षा Wiki कहानियाँ और समीक्षाएँ टेक्नोलॉजी
अप्रैल 2024 में हैक्स और घोटालों में ऐतिहासिक कमी देखी गई, CertiK ने मार्च से 141% की कमी की रिपोर्ट दी
1 मई 2024
फेडरल रिजर्व के ब्याज दर निर्णय की घोषणा से पहले बिटकॉइन की कीमत में गिरावट, विश्लेषकों ने संभावित बाजार बदलाव की चेतावनी दी
Markets समाचार रिपोर्ट टेक्नोलॉजी
फेडरल रिजर्व के ब्याज दर निर्णय की घोषणा से पहले बिटकॉइन की कीमत में गिरावट, विश्लेषकों ने संभावित बाजार बदलाव की चेतावनी दी
1 मई 2024
क्रिप्टोमेरिया लैब्स पीटीई। लिमिटेड