GPT-4أداء الشركة في امتحان نقابة المحامين الأمريكي يتناقض مع ادعاءاتها
في سطور
فحص GPT-4كشف أداء في امتحان المحامين الموحد عن وجود تناقض بين الأداء المقدر والفعلي، مما يؤكد على أهمية إجراءات التقييم الشفافة والبيانات التي يمكن الوصول إليها.
OpenAI يتم تشجيعها على معالجة التناقضات وتطوير نهج أكثر شمولاً وموثوقية لتقييم نموذج الذكاء الاصطناعي لكسب الثقة وضمان المصداقية.
في الفحص الأخير ل GPT-4أداء في امتحان المحامين الموحد (UBE)، وقد أثيرت الشكوك حول دقة OpenAIادعاءات فيما يتعلق بمعدل نجاح النموذج. خلافا لما زعم في البداية GPT-4 يتفوق على 90% من الأفراد، تشير النتائج إلى وجود تباين كبير بين الأداء المقدر والأداء الفعلي لنموذج الذكاء الاصطناعي. يؤكد هذا الكشف على أهمية إجراءات التقييم الشفافة والبيانات التي يمكن الوصول إليها للتحقق من صحة هذه الادعاءات.
ركز الفحص على عوامل مختلفة للتأكد من القدرات الحقيقية لـ GPT-4. أولا، تحليل كشفت اختبارات فبراير في إلينوي ذلك GPT-4اقتربت درجات في المئة 90. ومع ذلك ، فقد لوحظ أن هذه الدرجات قد تأثرت بشكل كبير بالمعادين الذين فشلوا سابقًا في امتحان يوليو وبالتالي سجلوا درجات أقل من المتوسط العام.
علاوة على ذلك، تناقضت نتائج امتحان شهر يوليو OpenAIادعاءات، وكشف ذلك GPT-4 سوف فقط يتفوق على 68% من الأشخاص و 48% من المقالات. GPT-4تم تقييم أداء s ضد المتقدمين لأول مرة (باستثناء عمليات إعادة الاختبار) عند النسبة المئوية 63 عندما تم أخذ البيانات الرسمية من عدة اختبارات في فترات مختلفة في الاعتبار، مع تسجيل المقالات أقل بكثير عند النسبة المئوية 41.
وتم اكتساب منظور إضافي من خلال فحص أداء أولئك الذين اجتازوا الاختبار، بما في ذلك الأفراد المرخص لهم وأولئك الذين ينتظرون الترخيص. في هذا الصدد، GPT-4تم تصنيف الأداء الإجمالي لـ في المرتبة 48 في المائة، وكانت المقالات أسوأ في النسبة المئوية 15.
وفي حين أن هذه النتائج مثيرة للقلق، فمن الأهمية بمكان النظر في إمكانية حدوث خطأ بشري في عملية المراجعة. ويؤكد كاتب المقال على أهمية فهم العينة التي استخدمها الباحثون للتقييم GPT-4أداء. إن الافتقار إلى البيانات الرسمية، وخاصة في شكل مجمع، يجعل المقارنة والتقييم العادل للنسب المئوية أمرا صعبا. يعد إنشاء تقنيات تقييم واضحة ويمكن الوصول إليها ويمكن تقييمها من قبل جميع أصحاب المصلحة أمرًا بالغ الأهمية.
استجابة لهذه المخاوف ، OpenAI وحث على معالجة التناقضات و تقديم مزيد من الأفكار في عملية التقييم. الشفافية والانفتاح ضروريان لاكتساب الثقة وضمان مصداقية نماذج الذكاء الاصطناعي في المجالات عالية المخاطر مثل القانون.
تجدر الإشارة إلى أن المقالة لا تناقش النتيجة المحددة التي حققتها GPT-4، والتي يُقال إنها 298. يتطلب تقييم أهمية هذه النتيجة فهمًا سياقيًا لنظام الدرجات المستخدم. مثلما أن عودة الطفل إلى المنزل من المدرسة بدرجة B يمكن أن يكون سببًا للاحتفال أو خيبة الأمل، فإن تفسير ذلك GPT-4تعتمد درجة التقييم على المقياس المستخدم.
تقييم GPT-4أداء في امتحان نقابة المحامين يثير مخاوف جدية عن صحة OpenAIالتأكيدات الأولية. وتؤكد الفجوة بين الأداء المقدر والأداء الفعلي على أهمية وجود أنظمة تقييم واضحة وبيانات يمكن الوصول إليها بسهولة. OpenAI ويتم تشجيعها على مواجهة هذه التحديات وتطوير نظام أكثر شمولاً وشمولاً نهج موثوق به للذكاء الاصطناعي تقييم النموذج.
اقرأ المزيد عن الذكاء الاصطناعي:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.