تقرير الأخبار تكنولوجيا
27 أكتوبر 2023

نسخ الباحثون OpenAIيعتمد العمل على تحسين السياسة القريبة (PPO) في RLHF

يعد التعلم المعزز من ردود الفعل البشرية (RLHF) جزءًا لا يتجزأ من أنظمة التدريب مثل ChatGPT، ويعتمد على أساليب متخصصة لتحقيق النجاح. إحدى هذه الطرق، تحسين السياسة القريبة (PPO)، كانت في البداية متخيل داخل أسوار OpenAI في عام 2017. للوهلة الأولى، تميزت شركة PPO بوعدها بالبساطة في التنفيذ والعدد المنخفض نسبيًا من المعلمات الفائقة المطلوبة لضبط النموذج. ولكن، كما يقولون، الشيطان يكمن في التفاصيل.

نسخ الباحثون OpenAIيعتمد العمل على تحسين السياسة القريبة (PPO) في RLHF

ظهرت مؤخرًا مدونة بعنوان "تفاصيل التنفيذ الـ 37 لتحسين السياسة القريبة" تسليط الضوء على تعقيدات PPO (التي تم إعدادها لمؤتمر ICLR). ويشير الاسم وحده إلى التحديات التي تواجه تنفيذ هذه الطريقة التي يفترض أنها واضحة. ومن المثير للدهشة أن المؤلفين استغرقوا ثلاث سنوات لجمع كل المعلومات الضرورية وإعادة إنتاج النتائج.

الكود الموجود في ملف OpenAI خضع المستودع لتغييرات كبيرة بين الإصدارات، وتركت بعض الجوانب دون تفسير، وأدت الخصائص التي ظهرت كأخطاء إلى نتائج بطريقة ما. يصبح تعقيد PPO واضحًا عندما تتعمق في التفاصيل، وبالنسبة لأولئك المهتمين بالفهم العميق أو التحسين الذاتي، يتوفر ملخص فيديو موصى به للغاية.

لكن القصة لا تنتهي عند هذا الحد. قرر نفس المؤلفين إعادة النظر في openai/lm-مستودع التفضيلات البشرية من عام 2019، والتي لعبت دورًا حاسمًا في تحسين نماذج اللغة بناءً على التفضيلات البشرية، باستخدام PPO. يمثل هذا المستودع التطورات المبكرة في ChatGPT. منشور المدونة الأخير ، "تفاصيل تنفيذ N لـ RLHF مع PPO"، يتكرر بشكل وثيق OpenAIيعمل ولكنه يستخدم PyTorch والمكتبات الحديثة بدلاً من TensorFlow القديم. جاء هذا التحول مصحوبًا بمجموعة من التحديات الخاصة به، مثل الاختلافات في تنفيذ مُحسِّن Adam بين الأطر، مما يجعل من المستحيل تكرار التدريب دون تعديلات.

ولعل الجانب الأكثر إثارة للاهتمام في هذه الرحلة هو السعي لإجراء تجارب على إعدادات معينة لوحدة معالجة الرسومات للحصول على مقاييس أصلية ومنحنيات التعلم. إنها رحلة مليئة بالتحديات، بدءًا من قيود الذاكرة على أنواع وحدات معالجة الرسومات المختلفة وحتى ترحيل وحدات معالجة الرسومات OpenAI مجموعات البيانات بين مرافق التخزين.

في الختام، فإن استكشاف تحسين السياسة القريبة (PPO) في تعزيز التعلم من ردود الفعل البشرية (RLHF) يكشف عن عالم رائع من التعقيدات.

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

تنمو الشهية المؤسسية تجاه صناديق الاستثمار المتداولة في البيتكوين وسط التقلبات

تكشف الإفصاحات من خلال ملفات 13F عن مستثمرين مؤسسيين بارزين يشتغلون بصناديق الاستثمار المتداولة في البيتكوين، مما يؤكد القبول المتزايد لـ ...

لمعرفة المزيد

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

لمعرفة المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تحول دونالد ترامب إلى العملات المشفرة: من الخصم إلى المدافع، وماذا يعني ذلك بالنسبة لسوق العملات المشفرة في الولايات المتحدة
باقة الأعمال الأسواق قصص ومراجعات تكنولوجيا
تحول دونالد ترامب إلى العملات المشفرة: من الخصم إلى المدافع، وماذا يعني ذلك بالنسبة لسوق العملات المشفرة في الولايات المتحدة
10 مايو 2024
ستطلق Layer3 رمز L3 هذا الصيف، وتخصص 51% من إجمالي العرض للمجتمع
الأسواق تقرير الأخبار تكنولوجيا
ستطلق Layer3 رمز L3 هذا الصيف، وتخصص 51% من إجمالي العرض للمجتمع
10 مايو 2024
التحذير الأخير من إدوارد سنودن لمطوري البيتكوين: "اجعلوا الخصوصية أولوية على مستوى البروتوكول وإلا خاطروا بفقدانها"
الأسواق حماية Wiki تطبيقات الكمبيوتر قصص ومراجعات تكنولوجيا
التحذير الأخير من إدوارد سنودن لمطوري البيتكوين: "اجعلوا الخصوصية أولوية على مستوى البروتوكول وإلا خاطروا بفقدانها"
10 مايو 2024
شبكة إيثريوم من الطبقة الثانية المدعومة بالتفاؤل ستطلق شبكتها الرئيسية في 2 مايو
تقرير الأخبار تكنولوجيا
شبكة إيثريوم من الطبقة الثانية المدعومة بالتفاؤل ستطلق شبكتها الرئيسية في 2 مايو
10 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.