GPT-4 يتفوق GPT-3.5 في جميع المجالات وفقًا لمجموعة متنوعة من معايير الدراسة
في سطور
• GPT-4 وقد حقق عتبة درجة أعلى من GPT-3.5 على مجموعة متنوعة من المعايير.
يعد هذا إنجازًا كبيرًا لأنه يوضح أن الآلات ليست قادرة فقط على الذكاء الشبيه بالبشر ولكن يمكنها أيضًا أن تتفوق علينا ، مما يثير تساؤلات حول مستقبل الذكاء الاصطناعي وتأثيره المحتمل على سوق العمل.
GPT-4 تتفوق النماذج الحديثة (SOTA) بشكل كبير، بما في ذلك تلك التي تستخدم بروتوكولات تدريب إضافية أو تصميمًا محددًا للمعايير، بالإضافة إلى نماذج اللغات الكبيرة الحالية.
• GPT-4 وقد حقق درجات أعلى من GPT-3.5 على مجموعة متنوعة من المعايير. يعد هذا إنجازًا كبيرًا للآلات لأنه يثبت أنها لا تستطيع الآن حل المشكلات التي تم تصميمها في الأصل فحسب، بل يمكنها أيضًا القيام بذلك بشكل أفضل من طلاب الجامعات.
هناك بعض الأشياء التي يجب أخذها في الاعتبار عند النظر إلى هذه النتيجة. أولا، GPT-4 ولم يتلق أي تدريب محدد لهذه الامتحانات. وقد تم المضي قدمًا باستخدام أحدث الاختبارات المتاحة للجمهور (في حالة أسئلة الاستجابة المجانية للأولمبياد وAP) أو عن طريق شراء إصدارات 2022-2023 من الاختبارات التدريبية. ثانيا، من المهم أن نلاحظ أن GPT-4قد لا يعكس أداء s بالضرورة قدرات المتقدمين للاختبار من البشر، لأنه يعمل على مجموعة مختلفة من المبادئ والخوارزميات.
هذا هو إنجاز كبير مثل فإنه يظهر أن الآلات ليست قادرة فقط على الذكاء الشبيه بالبشر ولكن يمكنها أيضًا أن تتفوق علينا. هذا يمهد الطريق لمستقبل حيث يمكن للآلات أن تقوم بمهام أكثر وأكثر تعقيدًا ، مما يؤدي في النهاية إلى مستقبل يمكنها فيه مساعدتنا في حياتنا اليومية.
GPT-4على سبيل المثال، اجتياز اختبار المحاكية والحصول على درجة بين أعلى 10% من المتقدمين للاختبار؛ GPT-3وكانت نتيجة .5 في أدنى 10٪. هذا التحسن الكبير في GPT-4يرجع أداء s إلى بيانات التدريب الأكبر والهندسة المحسنة. ومن المتوقع أن يكون لديه مجموعة واسعة من التطبيقات في مختلف المجالات، بما في ذلك معالجة اللغة الطبيعية والكتابة الآلية.
غالبية النماذج الحديثة (SOTA) ، بما في ذلك تلك التي قد تستخدم بروتوكولات تدريب إضافية أو تصميمًا خاصًا بالمعايير ، بالإضافة إلى النماذج الكبيرة الحالية نماذج اللغة، يتفوق عليها بشكل ملحوظ GPT-4.
داخليا، تم الاستفادة من المطورين GPT-4، والذي كان له تأثير كبير على أنشطة مثل البرمجة والمبيعات والدعم والإشراف على المحتوى. المرحلة الثانية من طريقة المحاذاة لدينا جارية الآن حيث يستخدمها المطورون لمساعدة البشر في مراجعة نتائج الذكاء الاصطناعي.
تحتوي مجموعة بيانات MMLU (الفهم الهائل للغة متعددة المهام) على أسئلة من مجموعة واسعة جدًا من الموضوعات حول فهم اللغة في مهام مختلفة (تشمل 57 مجالًا ، بما في ذلك الرياضيات ، وعلم الأحياء ، والقانون ، والعلوم الاجتماعية والإنسانية ، وما إلى ذلك). توجد أربع إجابات محتملة على السؤال ، إحداهما صحيحة. أي أن التخمين العشوائي يظهر نتيجة 25٪ من الإجابات الصحيحة. انظر إلى الصورة أدناه للحصول على أمثلة للأسئلة والصعوبات التي تواجهها. متوسط الشخص المحدد (أي ، هذا ليس عالِمًا ، وليس أستاذًا - شخصًا عاديًا يضيء القمر كترميز) يجيب بشكل صحيح على 35٪ من الأسئلة ؛ ومع ذلك ، يمكن للخبراء الوصول إلى درجة +/- 90٪.
في الأصل، كانت مجموعة البيانات بأكملها باللغة الإنجليزية. ولكن ماذا لو تمت ترجمة الأسئلة والأجوبة إلى لغات أخرى، وخاصة اللغات الأقل شيوعا؟ هل سيعمل النموذج معهم بطريقة أو بأخرى؟ في هذا الاختبار، تم استخدام خدمة Microsoft Azure Translate للترجمة. الترجمات ليست مثالية. وفي بعض الحالات، يتم فقدان معلومات مهمة. ومع ذلك، حتى في هذه الحالة، GPT-4 يؤدي أداءً جيدًا في اللغات الأخرى. في الإصدارات المترجمة من MMLU، GPT-4 يتفوق على مستوى اللغة الإنجليزية للنماذج الكبيرة الأخرى (بما في ذلك Google) بـ 24 لغة من أصل 26 لغة تم فحصها.
ما هو أكثر من ذلك GPT-4 أداء أفضل في اللغات النادرة من ChatGPT فعل بالإنجليزية (ChatGPT وحققت درجة 70.1%، في حين بلغت درجة النموذج الجديد للغة التايلاندية 71.8%. وكانت درجة اختبار اللغة الإنجليزية هي الأعلى، مع GPT-4 أداء أفضل بنسبة 10% من الموديلات الأخرى، بما في ذلك أكبر PaLM من Google. وحققت درجة 86.4%، في حين حققت مجموعة الخبراء 90%.
- بحلول صيف عام 2023 ، ربما وصل الذكاء الاصطناعي إلى مستوى جديد من القوة بفضل ChatGPT، برنامج chatbot يستخدم GPT-4 خوارزمية و يتفوق GPT-3 بمعامل 570. مجموعة متنوعة من العناصر تساهم في ChatGPTنجاحها ، بما في ذلك تصميمها لتكون أكثر "شبيهة بالبشر" واستخدامها لاستخراج البيانات المتطورة ومعالجة اللغة الطبيعية لزيادة فعاليتها ودقتها.
- مايكروسوفت و OpenAI أعلنا عن تجديد تعاونهما وخطط بحث Bing لتبني قدرات البحث المعززة بالذكاء الاصطناعي في يناير. المتطورة جدا GPTاستبدال موديل 3.5 GPT4, تم إطلاقه للتو، ولديه القدرة على تعزيز قدرة بحث Bing بشكل كبير على فهم استفسارات اللغة الطبيعية وتقديم نتائج أكثر دقة. إنها لفكرة جيدة أن يكون لديك خطة احتياطية جيدة في حالة حدوث خطأ ما.
اقرأ المزيد من الأخبار ذات الصلة:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.