تقرير الأخبار تكنولوجيا
01 حزيران، 2023

OpenAI: نمذجة المكافآت الجديدة الخاضعة للإشراف على العمليات تحسن استدلال الذكاء الاصطناعي

في سطور

OpenAIتهدف نمذجة المكافآت الخاضعة للإشراف (PRM) إلى تقييم الخطوات الوسيطة والتفكير المنطقي لنماذج الذكاء الاصطناعي ، مما يؤدي إلى تحسين الأداء والمقاييس.

OpenAI استحوذ مرة أخرى على انتباه مجتمع الذكاء الاصطناعي من خلال عملهم الرائد في نمذجة المكافآت الخاضعة للإشراف (PRMS). يهدف هذا النهج المبتكر إلى تقييم الخطوات الوسيطة والاستدلال لنماذج الذكاء الاصطناعي ، مما يؤدي إلى تحسين الأداء والمقاييس.

OpenAI: نمذجة المكافآت الجديدة الخاضعة للإشراف على العمليات تحسن استدلال الذكاء الاصطناعي
الائتمان: Metaverse Post (mpost.io)
منتجات ينصح بها: ChatGPT يمكن أن تغير وول ستريت بجعل التداول أسهل

في التعزيز التقليدي التعلم من ردود الفعل البشرية (RLHF) ، عادةً ما يتم تقديم ملاحظات النموذج بناءً على النتيجة الإجمالية الناتجة عن النموذج. لكن، OpenAIبحث جديد يستكشف فكرة تقييم الخطوات الفردية وعمليات التفكير التي يقوم بها النموذج. من خلال القيام بذلك ، يمكنهم تقديم تقييمات وتعليقات أكثر دقة.

لمعالجة هذه المشكلة ، OpenAI مشاكل رياضية مختارة تتطلب إجراءات متعددة. منفصل نموذج تم تدريبهم على تقييم الخطوات الوسيطة بشكل فعال ، والعمل كناقد لتحديد أي أحكام خاطئة صادرة عن النموذج الأساسي. لا تعمل هذه العملية على تحسين الأداء العام فحسب ، بل تعمل أيضًا على تحسين المقاييس المستخدمة لتقييم قدرات النموذج.

OpenAI خطى خطوات كبيرة في هذا المجال ، مع إصدار مجموعة بيانات منسقة بدقة تتكون من 800,000 حكم ملحوظ. يمثل كل حكم مرحلة منفصلة في حل المشكلات الرياضية وتم إنشاؤه يدويًا. هذا يسلط الضوء على مستوى التفاني والموارد OpenAI يستثمر في تطوير مجموعات بيانات عالية الجودة، مما يثير تساؤلات حول حجم البيانات التي تم جمعها لمجالات أخرى مثل البرمجة أو الأسئلة المفتوحة.

تدريب GPT-4, OpenAIأحدث إصدار لـ GPT السلسلة، جارية بالفعل على قدم وساق. في حين لم يتم دمج مكون RLHF في التجارب الحالية، يتم استخدام نموذج لغة نقية. والجدير بالذكر، OpenAI يذكر أن هناك إصدارات متعددة من GPT-4، حتى مع أصغر إصدار يتطلب موارد أقل بكثير للتدريب - ما يقرب من 200 مرة أقل.

مثال مثير للاهتمام يتقاسمه OpenAI يعرض كيفية تقييم النموذج لكل خطوة قرار فردية. في لقطة الشاشة المضمنة في المنشور ، يتم وضع علامة على الأخطاء في الحل ومنحها أدنى درجة صحة ، مظللة باللون الأحمر.
الائتمان: OpenAI

مثال مثير للاهتمام يتقاسمه OpenAI يعرض كيفية تقييم النموذج كل خطوة قرار فردية. في لقطة الشاشة المضمنة في المنشور ، يتم وضع علامة على الأخطاء في الحل ومنحها أدنى درجة صحة ، مظللة باللون الأحمر. يسلط هذا العرض التوضيحي الضوء على قدرة النموذج على التفكير ويقدم رؤى قيمة في عملية صنع القرار. OpenAI قدم أيضًا تعليمات بشأن العلامات التجارية ، مما يوفر فرصًا للمتعاقدين من الجمهور للمساهمة في عملهم والاستفادة منه.

As OpenAI يواصلون دفع حدود أبحاث الذكاء الاصطناعي ، وتركيزهم على الاستدلال النموذجي ونمذجة المكافآت الخاضعة للإشراف يجلب إمكانيات جديدة لقدرات الذكاء الاصطناعي المحسّنة. يُظهر هذا الاختراق الأخير التزامهم بتحسين أداء النموذج ويفتح الأبواب لمزيد من التقدم في هذا المجال.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

تنمو الشهية المؤسسية تجاه صناديق الاستثمار المتداولة في البيتكوين وسط التقلبات

تكشف الإفصاحات من خلال ملفات 13F عن مستثمرين مؤسسيين بارزين يشتغلون بصناديق الاستثمار المتداولة في البيتكوين، مما يؤكد القبول المتزايد لـ ...

لمعرفة المزيد

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

لمعرفة المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تحول دونالد ترامب إلى العملات المشفرة: من الخصم إلى المدافع، وماذا يعني ذلك بالنسبة لسوق العملات المشفرة في الولايات المتحدة
باقة الأعمال الأسواق قصص ومراجعات تكنولوجيا
تحول دونالد ترامب إلى العملات المشفرة: من الخصم إلى المدافع، وماذا يعني ذلك بالنسبة لسوق العملات المشفرة في الولايات المتحدة
10 مايو 2024
ستطلق Layer3 رمز L3 هذا الصيف، وتخصص 51% من إجمالي العرض للمجتمع
الأسواق تقرير الأخبار تكنولوجيا
ستطلق Layer3 رمز L3 هذا الصيف، وتخصص 51% من إجمالي العرض للمجتمع
10 مايو 2024
التحذير الأخير من إدوارد سنودن لمطوري البيتكوين: "اجعلوا الخصوصية أولوية على مستوى البروتوكول وإلا خاطروا بفقدانها"
الأسواق حماية Wiki تطبيقات الكمبيوتر قصص ومراجعات تكنولوجيا
التحذير الأخير من إدوارد سنودن لمطوري البيتكوين: "اجعلوا الخصوصية أولوية على مستوى البروتوكول وإلا خاطروا بفقدانها"
10 مايو 2024
شبكة إيثريوم من الطبقة الثانية المدعومة بالتفاؤل ستطلق شبكتها الرئيسية في 2 مايو
تقرير الأخبار تكنولوجيا
شبكة إيثريوم من الطبقة الثانية المدعومة بالتفاؤل ستطلق شبكتها الرئيسية في 2 مايو
10 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.