تقرير الأخبار SMW تكنولوجيا
30 مايو 2023

GPT-4أداء الشركة في امتحان نقابة المحامين الأمريكي يتناقض مع ادعاءاتها

في سطور

فحص GPT-4كشف أداء في امتحان المحامين الموحد عن وجود تناقض بين الأداء المقدر والفعلي، مما يؤكد على أهمية إجراءات التقييم الشفافة والبيانات التي يمكن الوصول إليها.

OpenAI يتم تشجيعها على معالجة التناقضات وتطوير نهج أكثر شمولاً وموثوقية لتقييم نموذج الذكاء الاصطناعي لكسب الثقة وضمان المصداقية.

في الفحص الأخير ل GPT-4أداء في امتحان المحامين الموحد (UBE)، وقد أثيرت الشكوك حول دقة OpenAIادعاءات فيما يتعلق بمعدل نجاح النموذج. خلافا لما زعم في البداية GPT-4 يتفوق على 90% من الأفراد، تشير النتائج إلى وجود تباين كبير بين الأداء المقدر والأداء الفعلي لنموذج الذكاء الاصطناعي. يؤكد هذا الكشف على أهمية إجراءات التقييم الشفافة والبيانات التي يمكن الوصول إليها للتحقق من صحة هذه الادعاءات.

GPT-4أداء الشركة في امتحان نقابة المحامين الأمريكي يتناقض مع ادعاءاتها
@Midjourney

ركز الفحص على عوامل مختلفة للتأكد من القدرات الحقيقية لـ GPT-4. أولا، تحليل كشفت اختبارات فبراير في إلينوي ذلك GPT-4اقتربت درجات في المئة 90. ومع ذلك ، فقد لوحظ أن هذه الدرجات قد تأثرت بشكل كبير بالمعادين الذين فشلوا سابقًا في امتحان يوليو وبالتالي سجلوا درجات أقل من المتوسط ​​العام.

علاوة على ذلك، تناقضت نتائج امتحان شهر يوليو OpenAIادعاءات، وكشف ذلك GPT-4 سوف فقط يتفوق على 68% من الأشخاص و 48% من المقالات. GPT-4تم تقييم أداء s ضد المتقدمين لأول مرة (باستثناء عمليات إعادة الاختبار) عند النسبة المئوية 63 عندما تم أخذ البيانات الرسمية من عدة اختبارات في فترات مختلفة في الاعتبار، مع تسجيل المقالات أقل بكثير عند النسبة المئوية 41.

وتم اكتساب منظور إضافي من خلال فحص أداء أولئك الذين اجتازوا الاختبار، بما في ذلك الأفراد المرخص لهم وأولئك الذين ينتظرون الترخيص. في هذا الصدد، GPT-4تم تصنيف الأداء الإجمالي لـ في المرتبة 48 في المائة، وكانت المقالات أسوأ في النسبة المئوية 15.

وفي حين أن هذه النتائج مثيرة للقلق، فمن الأهمية بمكان النظر في إمكانية حدوث خطأ بشري في عملية المراجعة. ويؤكد كاتب المقال على أهمية فهم العينة التي استخدمها الباحثون للتقييم GPT-4أداء. إن الافتقار إلى البيانات الرسمية، وخاصة في شكل مجمع، يجعل المقارنة والتقييم العادل للنسب المئوية أمرا صعبا. يعد إنشاء تقنيات تقييم واضحة ويمكن الوصول إليها ويمكن تقييمها من قبل جميع أصحاب المصلحة أمرًا بالغ الأهمية.

استجابة لهذه المخاوف ، OpenAI وحث على معالجة التناقضات و تقديم مزيد من الأفكار في عملية التقييم. الشفافية والانفتاح ضروريان لاكتساب الثقة وضمان مصداقية نماذج الذكاء الاصطناعي في المجالات عالية المخاطر مثل القانون.

تجدر الإشارة إلى أن المقالة لا تناقش النتيجة المحددة التي حققتها GPT-4، والتي يُقال إنها 298. يتطلب تقييم أهمية هذه النتيجة فهمًا سياقيًا لنظام الدرجات المستخدم. مثلما أن عودة الطفل إلى المنزل من المدرسة بدرجة B يمكن أن يكون سببًا للاحتفال أو خيبة الأمل، فإن تفسير ذلك GPT-4تعتمد درجة التقييم على المقياس المستخدم.

تقييم GPT-4أداء في امتحان نقابة المحامين يثير مخاوف جدية عن صحة OpenAIالتأكيدات الأولية. وتؤكد الفجوة بين الأداء المقدر والأداء الفعلي على أهمية وجود أنظمة تقييم واضحة وبيانات يمكن الوصول إليها بسهولة. OpenAI ويتم تشجيعها على مواجهة هذه التحديات وتطوير نظام أكثر شمولاً وشمولاً نهج موثوق به للذكاء الاصطناعي تقييم النموذج.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

أعرف المزيد

مؤسسو Samourai Wallet متهمون بتسهيل صفقات بقيمة 2 مليار دولار في Darknet

يمثل إلقاء القبض على مؤسسي Samourai Wallet انتكاسة ملحوظة لهذه الصناعة، مما يؤكد استمرار ...

أعرف المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تتكامل شبكة Bitcoin L2 BOB مع LayerZero لتعزيز الوظائف
باقة الأعمال تقرير الأخبار تكنولوجيا
تتكامل شبكة Bitcoin L2 BOB مع LayerZero لتعزيز الوظائف
1 مايو 2024
نهضة الذكاء الاصطناعي في تطوير الألعاب في عام 2024
AI Wiki ميتافيرس من Wiki التعليم الأسواق تطبيقات الكمبيوتر تكنولوجيا
نهضة الذكاء الاصطناعي في تطوير الألعاب في عام 2024
1 مايو 2024
داخل مختبر ابتكارات الذكاء الاصطناعي الجديد التابع لشركة Estée Lauder: نظرة فاحصة على كيفية قيام الذكاء الاصطناعي التوليدي بتحويل العلامات التجارية لمستحضرات التجميل
أسلوب الحياة تطبيقات الكمبيوتر قصص ومراجعات تكنولوجيا
داخل مختبر ابتكارات الذكاء الاصطناعي الجديد التابع لشركة Estée Lauder: نظرة فاحصة على كيفية قيام الذكاء الاصطناعي التوليدي بتحويل العلامات التجارية لمستحضرات التجميل
1 مايو 2024
تتعاون Chainlink وRapid Addition لتطوير محول Blockchain القائم على CCIP
باقة الأعمال تقرير الأخبار تكنولوجيا
تتعاون Chainlink وRapid Addition لتطوير محول Blockchain القائم على CCIP
1 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.