OpenAI: نمذجة المكافآت الجديدة الخاضعة للإشراف على العمليات تحسن استدلال الذكاء الاصطناعي
في سطور
OpenAIتهدف نمذجة المكافآت الخاضعة للإشراف (PRM) إلى تقييم الخطوات الوسيطة والتفكير المنطقي لنماذج الذكاء الاصطناعي ، مما يؤدي إلى تحسين الأداء والمقاييس.
OpenAI استحوذ مرة أخرى على انتباه مجتمع الذكاء الاصطناعي من خلال عملهم الرائد في نمذجة المكافآت الخاضعة للإشراف (PRMS). يهدف هذا النهج المبتكر إلى تقييم الخطوات الوسيطة والاستدلال لنماذج الذكاء الاصطناعي ، مما يؤدي إلى تحسين الأداء والمقاييس.
منتجات ينصح بها: ChatGPT يمكن أن تغير وول ستريت بجعل التداول أسهل |
في التعزيز التقليدي التعلم من ردود الفعل البشرية (RLHF) ، عادةً ما يتم تقديم ملاحظات النموذج بناءً على النتيجة الإجمالية الناتجة عن النموذج. لكن، OpenAIبحث جديد يستكشف فكرة تقييم الخطوات الفردية وعمليات التفكير التي يقوم بها النموذج. من خلال القيام بذلك ، يمكنهم تقديم تقييمات وتعليقات أكثر دقة.
لمعالجة هذه المشكلة ، OpenAI مشاكل رياضية مختارة تتطلب إجراءات متعددة. منفصل نموذج تم تدريبهم على تقييم الخطوات الوسيطة بشكل فعال ، والعمل كناقد لتحديد أي أحكام خاطئة صادرة عن النموذج الأساسي. لا تعمل هذه العملية على تحسين الأداء العام فحسب ، بل تعمل أيضًا على تحسين المقاييس المستخدمة لتقييم قدرات النموذج.
OpenAI خطى خطوات كبيرة في هذا المجال ، مع إصدار مجموعة بيانات منسقة بدقة تتكون من 800,000 حكم ملحوظ. يمثل كل حكم مرحلة منفصلة في حل المشكلات الرياضية وتم إنشاؤه يدويًا. هذا يسلط الضوء على مستوى التفاني والموارد OpenAI يستثمر في تطوير مجموعات بيانات عالية الجودة، مما يثير تساؤلات حول حجم البيانات التي تم جمعها لمجالات أخرى مثل البرمجة أو الأسئلة المفتوحة.
تدريب GPT-4, OpenAIأحدث إصدار لـ GPT السلسلة، جارية بالفعل على قدم وساق. في حين لم يتم دمج مكون RLHF في التجارب الحالية، يتم استخدام نموذج لغة نقية. والجدير بالذكر، OpenAI يذكر أن هناك إصدارات متعددة من GPT-4، حتى مع أصغر إصدار يتطلب موارد أقل بكثير للتدريب - ما يقرب من 200 مرة أقل.
مثال مثير للاهتمام يتقاسمه OpenAI يعرض كيفية تقييم النموذج كل خطوة قرار فردية. في لقطة الشاشة المضمنة في المنشور ، يتم وضع علامة على الأخطاء في الحل ومنحها أدنى درجة صحة ، مظللة باللون الأحمر. يسلط هذا العرض التوضيحي الضوء على قدرة النموذج على التفكير ويقدم رؤى قيمة في عملية صنع القرار. OpenAI قدم أيضًا تعليمات بشأن العلامات التجارية ، مما يوفر فرصًا للمتعاقدين من الجمهور للمساهمة في عملهم والاستفادة منه.
As OpenAI يواصلون دفع حدود أبحاث الذكاء الاصطناعي ، وتركيزهم على الاستدلال النموذجي ونمذجة المكافآت الخاضعة للإشراف يجلب إمكانيات جديدة لقدرات الذكاء الاصطناعي المحسّنة. يُظهر هذا الاختراق الأخير التزامهم بتحسين أداء النموذج ويفتح الأبواب لمزيد من التقدم في هذا المجال.
- في الآونة الأخيرة، يقال إن شركة آبل تقيد استخدام الموظفين لـ ChatGPT وروبوتات الدردشة الأخرى التي تعمل بالذكاء الاصطناعي بسبب مخاوف تتعلق بالخصوصية. ذكرت صحيفة وول ستريت جورنال أن العمال ممنوعون أيضًا من استخدام أداة الذكاء الاصطناعي الخاصة بـ GitHub's Copilot ، والتي تمكن المستخدمين من كتابة رمز البرنامج تلقائيًا. ChatGPT هو روبوت محادثة يعمل بالذكاء الاصطناعي تم تطويره بواسطة OpenAIالتي تعرضت لانتقادات بسبب انتهاكات الخصوصية.
اقرأ المزيد عن الذكاء الاصطناعي:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.