تقرير الأخبار تكنولوجيا
20 تموز، 2023

تؤكد دراسة ستانفورد GPT-4 أصبح أغبى

في سطور

قارنت دراسة أجراها ماتي زهاريا وفريقه من جامعة ستانفورد وجامعة كاليفورنيا في بيركلي أداء GPT-4 و ChatGPT لمعالجة مخاوف المستخدم بشأن فعالية النموذج.

قيمت الدراسة النماذج في أربع مهام محددة: الرياضيات ، والترميز ، والحساسية ، والتفكير البصري.

ماتي زهاريا وفريقه من جامعة ستانفورد وجامعة كاليفورنيا في بيركلي أجريت دراسة التي قارنت أداء GPT-4 إلى ChatGPT. سعى هذا التحقيق إلى معالجة مخاوف المستخدمين من أن فعالية النموذج قد تضاءلت.

تؤكد دراسة ستانفورد GPT-4 أصبح أغبى
الائتمان: Metaverse Post
مقالات ذات صلة: GPT-4 مقابل GPT-3: ما الذي يجب أن يقدمه النموذج الجديد؟

صمم الباحثون الدراسة لتقييم النماذج في أربع مهام محددة. وشملت هذه المهام:

  • الرياضيات: قدرة النموذج على تحديد ما إذا كان رقمًا معينًا أوليًا أم مركبًا.
  • الترميز: تقييم قدرة النموذج على إنشاء كود هادف وعملي.
  • الحساسية: تحليل ردود النموذج على الأسئلة ذات المحتوى "السام" المحتمل.
  • الاستدلال البصري: اختبار قدرة النموذج على حل المشكلات التي تتضمن أنماطًا بصرية ، باستخدام معيار ARC. كان على المشاركين تحديد أنماط في مجموعة من الصور وتطبيقها لحل مثال جديد.

وفي مجال الرياضيات كلاهما GPT-4 أظهرت الإصدارات، إصدارات مارس ويونيو، دقة متسقة في تحديد الأعداد الأولية والمركبة. أظهرت النماذج الكفاءة في التعامل مع هذه الحسابات، وتوفير نتائج موثوقة.

ننتقل إلى الترميز، GPT-4 أظهرت قدرة محسنة على إنشاء تعليمات برمجية مفيدة وعملية مقارنة بأسلافها. أظهرت قدرات إنشاء التعليمات البرمجية للنموذج واعدة، مما يوفر فوائد محتملة للمطورين والمبرمجين.

وفيما يتعلق بالحساسية، قامت الدراسة بتقييم ردود النماذج على الأسئلة التي تحتوي على محتوى قد يكون ضارًا أو مسيئًا. GPT-4 أظهر تحليلًا محسنًا للحساسية وأظهر قدرة محسنة على تقديم الاستجابات المناسبة في مثل هذه السياقات. وهذا يدل على خطوة إيجابية إلى الأمام في معالجة مخاوف المستخدم بشأن المخرجات التي قد تسبب مشاكل.

وأخيرًا، تم إكمال مهام التفكير البصري المستندة إلى معيار ARC بنجاح من قبل كليهما GPT-4 الإصدارات. حددت النماذج بشكل فعال الأنماط داخل مجموعات الصور وأظهرت القدرة على تطبيق هذه الأنماط لحل الأمثلة الجديدة. وهذا يوضح قدرتهم على الفهم البصري والتفكير.

النتائج تشير إلى ذلك GPT-4 أظهرت انخفاضًا في الدقة، مع ما يزيد قليلاً عن 2% من الإجابات الصحيحة. من المهم ملاحظة أن هذا الاختبار تحديدًا يقيم في المقام الأول قدرة النموذج على تذكر البيانات بدلاً من عرض قدراته الرياضية المتأصلة. تدور المهمة حول استدعاء الذاكرة، حيث يفتقر النموذج إلى القدرة على التحقق من صحة الحسابات والاستدلال، خاصة عندما يتعلق الأمر بالأعداد الأولية.

ChatGPT أظهر نموًا كبيرًا في مقاييس الأداء بحلول يونيو ، مما أظهر تحسنًا ملحوظًا بأكثر من عشرة أضعاف. في حين أن الدراسة لم تتعمق في العوامل المحددة التي تساهم في هذا التعزيز ، فإنها تسلط الضوء على ذلك ChatGPTالتقدم في التفكير الرياضي وقدرات حل المشكلات.

لم تقيم الدراسة جودة أو صحة الكود الذي تم إنشاؤه. وبدلاً من ذلك ، بدا أن النماذج تظهر سلوكًا أكثر "تخصيصًا" ، حيث تقدم مقتطفات من التعليمات البرمجية دون ضمان دقتها الوظيفية.
مقالات ذات صلة: 10+ أفضل معززات صور AI في عام 2023

جودة GPT-4 و ChatGPT تم استجوابهم بعد تحليل قدراتهم في البرمجة. ومع ذلك ، فإن نظرة فاحصة تكشف عن بعض الفروق الدقيقة الرائعة التي تتعارض مع الانطباعات الأولى.

المؤلفون لم ينفذوا أو يتحققوا من الكود من أجل صحتها ؛ كان تقييمهم يعتمد فقط على صحتها كرمز Python. بالإضافة إلى ذلك ، يبدو أن النماذج قد تعلمت تقنية محددة لتأطير الكود باستخدام أداة تزيين ، والتي أعاقت عن غير قصد تنفيذ الكود.

نتيجة لذلك ، يصبح من الواضح أنه لا يمكن اعتبار النتائج ولا التجربة نفسها كدليل على تدهور النموذج. بدلاً من ذلك ، تُظهر النماذج نهجًا مختلفًا لتوليد الاستجابات ، مما قد يعكس الاختلافات في تدريبهم.

اختبار لقدرات البرمجة والرياضيات GPT-4 و ChatGPT سلط الضوء على نتائج مثيرة للاهتمام. على عكس الافتراضات الأولية ، أظهرت النماذج تحسينات ملحوظة في مجالات معينة بينما أظهرت تغيرات سلوكية في مناطق أخرى.

عندما يتعلق الأمر بمهام البرمجة، أظهر كلا النموذجين انخفاضًا في الاستجابة للمطالبات "الخاطئة". GPT-4 مما يدل على انخفاض أكثر من أربعة أضعاف في مثل هذه الحالات. بالإضافة إلى ذلك، في مهمة الاستدلال البصري، تحسنت جودة الاستجابات بمقدار نقطتين مئويتين لكلا النموذجين. تشير هذه الملاحظات إلى التقدم وليس التدهور في الأداء.

ومع ذلك ، فإن تقييم المهارات الرياضية يقدم عنصرًا مثيرًا للاهتمام. قدمت النماذج باستمرار الأعداد الأولية كإجابات ، مما يشير إلى استجابة متسقة بـ "نعم". ومع ذلك ، عند تقديم الأرقام المركبة للعينة ، أصبح من الواضح أن النماذج غيرت سلوكها وبدأت في تقديم إجابات "لا" ، مما يشير إلى عدم اليقين بدلاً من انخفاض الجودة. الاختبار نفسه غريب ومن جانب واحد، ويمكن أن تُعزى نتائجها إلى التحولات في سلوك النموذج بدلاً من انخفاض الجودة.

من المهم ملاحظة أنه تم اختبار إصدارات واجهة برمجة التطبيقات (API)، وليس الإصدارات المستندة إلى المتصفح. في حين أنه من الممكن أن تكون النماذج الموجودة في المتصفح قد خضعت لتعديلات لتحسين الموارد، إلا أن الدراسة المرفقة لا تخضع لذلك defiإثبات هذه الفرضية بشكل قاطع. يمكن أن يكون تأثير مثل هذه التحولات مشابهًا للتخفيضات الفعلية للنموذج، مما يؤدي إلى تحديات محتملة للمستخدمين الذين يعتمدون على عمل محدد مطالبات والخبرة المتراكمة.

في حالة GPT-4 تطبيقات API، يمكن أن يكون لهذه الانحرافات في السلوك عواقب ملموسة. قد لا تعمل التعليمات البرمجية التي تم تطويرها بناءً على احتياجات ومهام مستخدم معين على النحو المنشود إذا خضع النموذج لتغييرات في سلوكه.

من المستحسن أن يقوم المستخدمون بدمج ممارسات اختبار مماثلة في مهام سير العمل الخاصة بهم. من خلال إنشاء مجموعة من المطالبات والنصوص المصاحبة والنتائج المتوقعة ، يمكن للمستخدمين التحقق بانتظام من التناسق بين توقعاتهم واستجابات النموذج. بمجرد اكتشاف أي انحرافات ، يمكن اتخاذ التدابير المناسبة لتصحيح الوضع.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

تنمو الشهية المؤسسية تجاه صناديق الاستثمار المتداولة في البيتكوين وسط التقلبات

تكشف الإفصاحات من خلال ملفات 13F عن مستثمرين مؤسسيين بارزين يشتغلون بصناديق الاستثمار المتداولة في البيتكوين، مما يؤكد القبول المتزايد لـ ...

لمعرفة المزيد

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

لمعرفة المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
Nexo تطلق مبادرة "The Hunt" لمكافأة المستخدمين برموز NEXO بقيمة 12 مليون دولار أمريكي مقابل تفاعلهم مع نظامها البيئي
الأسواق تقرير الأخبار تكنولوجيا
Nexo تطلق مبادرة "The Hunt" لمكافأة المستخدمين برموز NEXO بقيمة 12 مليون دولار أمريكي مقابل تفاعلهم مع نظامها البيئي
8 مايو 2024
تجذب شركة Revolut X Exchange متداولي العملات المشفرة بدون رسوم صانع وتحليلات متقدمة
الأسواق تطبيقات الكمبيوتر قصص ومراجعات تكنولوجيا
تجذب شركة Revolut X Exchange متداولي العملات المشفرة بدون رسوم صانع وتحليلات متقدمة
8 مايو 2024
منصة تداول العملات المشفرة BitMEX تطلق تداول الخيارات لأول مرة بدون رسوم وحوافز نقدية
باقة الأعمال الأسواق تقرير الأخبار
منصة تداول العملات المشفرة BitMEX تطلق تداول الخيارات لأول مرة بدون رسوم وحوافز نقدية
8 مايو 2024
تنتقل Lisk رسميًا إلى طبقة Ethereum 2 وتكشف عن Core v4.0.6
تقرير الأخبار تكنولوجيا
تنتقل Lisk رسميًا إلى طبقة Ethereum 2 وتكشف عن Core v4.0.6
8 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.