تؤكد دراسة ستانفورد GPT-4 أصبح أغبى
في سطور
قارنت دراسة أجراها ماتي زهاريا وفريقه من جامعة ستانفورد وجامعة كاليفورنيا في بيركلي أداء GPT-4 و ChatGPT لمعالجة مخاوف المستخدم بشأن فعالية النموذج.
قيمت الدراسة النماذج في أربع مهام محددة: الرياضيات ، والترميز ، والحساسية ، والتفكير البصري.
ماتي زهاريا وفريقه من جامعة ستانفورد وجامعة كاليفورنيا في بيركلي أجريت دراسة التي قارنت أداء GPT-4 إلى ChatGPT. سعى هذا التحقيق إلى معالجة مخاوف المستخدمين من أن فعالية النموذج قد تضاءلت.
مقالات ذات صلة: GPT-4 مقابل GPT-3: ما الذي يجب أن يقدمه النموذج الجديد؟ |
صمم الباحثون الدراسة لتقييم النماذج في أربع مهام محددة. وشملت هذه المهام:
- الرياضيات: قدرة النموذج على تحديد ما إذا كان رقمًا معينًا أوليًا أم مركبًا.
- الترميز: تقييم قدرة النموذج على إنشاء كود هادف وعملي.
- الحساسية: تحليل ردود النموذج على الأسئلة ذات المحتوى "السام" المحتمل.
- الاستدلال البصري: اختبار قدرة النموذج على حل المشكلات التي تتضمن أنماطًا بصرية ، باستخدام معيار ARC. كان على المشاركين تحديد أنماط في مجموعة من الصور وتطبيقها لحل مثال جديد.
وفي مجال الرياضيات كلاهما GPT-4 أظهرت الإصدارات، إصدارات مارس ويونيو، دقة متسقة في تحديد الأعداد الأولية والمركبة. أظهرت النماذج الكفاءة في التعامل مع هذه الحسابات، وتوفير نتائج موثوقة.
ننتقل إلى الترميز، GPT-4 أظهرت قدرة محسنة على إنشاء تعليمات برمجية مفيدة وعملية مقارنة بأسلافها. أظهرت قدرات إنشاء التعليمات البرمجية للنموذج واعدة، مما يوفر فوائد محتملة للمطورين والمبرمجين.
وفيما يتعلق بالحساسية، قامت الدراسة بتقييم ردود النماذج على الأسئلة التي تحتوي على محتوى قد يكون ضارًا أو مسيئًا. GPT-4 أظهر تحليلًا محسنًا للحساسية وأظهر قدرة محسنة على تقديم الاستجابات المناسبة في مثل هذه السياقات. وهذا يدل على خطوة إيجابية إلى الأمام في معالجة مخاوف المستخدم بشأن المخرجات التي قد تسبب مشاكل.
وأخيرًا، تم إكمال مهام التفكير البصري المستندة إلى معيار ARC بنجاح من قبل كليهما GPT-4 الإصدارات. حددت النماذج بشكل فعال الأنماط داخل مجموعات الصور وأظهرت القدرة على تطبيق هذه الأنماط لحل الأمثلة الجديدة. وهذا يوضح قدرتهم على الفهم البصري والتفكير.
ChatGPT أظهر نموًا كبيرًا في مقاييس الأداء بحلول يونيو ، مما أظهر تحسنًا ملحوظًا بأكثر من عشرة أضعاف. في حين أن الدراسة لم تتعمق في العوامل المحددة التي تساهم في هذا التعزيز ، فإنها تسلط الضوء على ذلك ChatGPTالتقدم في التفكير الرياضي وقدرات حل المشكلات.
مقالات ذات صلة: 10+ أفضل معززات صور AI في عام 2023 |
جودة GPT-4 و ChatGPT تم استجوابهم بعد تحليل قدراتهم في البرمجة. ومع ذلك ، فإن نظرة فاحصة تكشف عن بعض الفروق الدقيقة الرائعة التي تتعارض مع الانطباعات الأولى.
المؤلفون لم ينفذوا أو يتحققوا من الكود من أجل صحتها ؛ كان تقييمهم يعتمد فقط على صحتها كرمز Python. بالإضافة إلى ذلك ، يبدو أن النماذج قد تعلمت تقنية محددة لتأطير الكود باستخدام أداة تزيين ، والتي أعاقت عن غير قصد تنفيذ الكود.
نتيجة لذلك ، يصبح من الواضح أنه لا يمكن اعتبار النتائج ولا التجربة نفسها كدليل على تدهور النموذج. بدلاً من ذلك ، تُظهر النماذج نهجًا مختلفًا لتوليد الاستجابات ، مما قد يعكس الاختلافات في تدريبهم.
عندما يتعلق الأمر بمهام البرمجة، أظهر كلا النموذجين انخفاضًا في الاستجابة للمطالبات "الخاطئة". GPT-4 مما يدل على انخفاض أكثر من أربعة أضعاف في مثل هذه الحالات. بالإضافة إلى ذلك، في مهمة الاستدلال البصري، تحسنت جودة الاستجابات بمقدار نقطتين مئويتين لكلا النموذجين. تشير هذه الملاحظات إلى التقدم وليس التدهور في الأداء.
ومع ذلك ، فإن تقييم المهارات الرياضية يقدم عنصرًا مثيرًا للاهتمام. قدمت النماذج باستمرار الأعداد الأولية كإجابات ، مما يشير إلى استجابة متسقة بـ "نعم". ومع ذلك ، عند تقديم الأرقام المركبة للعينة ، أصبح من الواضح أن النماذج غيرت سلوكها وبدأت في تقديم إجابات "لا" ، مما يشير إلى عدم اليقين بدلاً من انخفاض الجودة. الاختبار نفسه غريب ومن جانب واحد، ويمكن أن تُعزى نتائجها إلى التحولات في سلوك النموذج بدلاً من انخفاض الجودة.
من المهم ملاحظة أنه تم اختبار إصدارات واجهة برمجة التطبيقات (API)، وليس الإصدارات المستندة إلى المتصفح. في حين أنه من الممكن أن تكون النماذج الموجودة في المتصفح قد خضعت لتعديلات لتحسين الموارد، إلا أن الدراسة المرفقة لا تخضع لذلك defiإثبات هذه الفرضية بشكل قاطع. يمكن أن يكون تأثير مثل هذه التحولات مشابهًا للتخفيضات الفعلية للنموذج، مما يؤدي إلى تحديات محتملة للمستخدمين الذين يعتمدون على عمل محدد مطالبات والخبرة المتراكمة.
في حالة GPT-4 تطبيقات API، يمكن أن يكون لهذه الانحرافات في السلوك عواقب ملموسة. قد لا تعمل التعليمات البرمجية التي تم تطويرها بناءً على احتياجات ومهام مستخدم معين على النحو المنشود إذا خضع النموذج لتغييرات في سلوكه.
من المستحسن أن يقوم المستخدمون بدمج ممارسات اختبار مماثلة في مهام سير العمل الخاصة بهم. من خلال إنشاء مجموعة من المطالبات والنصوص المصاحبة والنتائج المتوقعة ، يمكن للمستخدمين التحقق بانتظام من التناسق بين توقعاتهم واستجابات النموذج. بمجرد اكتشاف أي انحرافات ، يمكن اتخاذ التدابير المناسبة لتصحيح الوضع.
اقرأ المزيد عن الذكاء الاصطناعي:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.