نسخ الباحثون OpenAIيعتمد العمل على تحسين السياسة القريبة (PPO) في RLHF
يعد التعلم المعزز من ردود الفعل البشرية (RLHF) جزءًا لا يتجزأ من أنظمة التدريب مثل ChatGPT، ويعتمد على أساليب متخصصة لتحقيق النجاح. إحدى هذه الطرق، تحسين السياسة القريبة (PPO)، كانت في البداية متخيل داخل أسوار OpenAI في عام 2017. للوهلة الأولى، تميزت شركة PPO بوعدها بالبساطة في التنفيذ والعدد المنخفض نسبيًا من المعلمات الفائقة المطلوبة لضبط النموذج. ولكن، كما يقولون، الشيطان يكمن في التفاصيل.
ظهرت مؤخرًا مدونة بعنوان "تفاصيل التنفيذ الـ 37 لتحسين السياسة القريبة" تسليط الضوء على تعقيدات PPO (التي تم إعدادها لمؤتمر ICLR). ويشير الاسم وحده إلى التحديات التي تواجه تنفيذ هذه الطريقة التي يفترض أنها واضحة. ومن المثير للدهشة أن المؤلفين استغرقوا ثلاث سنوات لجمع كل المعلومات الضرورية وإعادة إنتاج النتائج.
الكود الموجود في ملف OpenAI خضع المستودع لتغييرات كبيرة بين الإصدارات، وتركت بعض الجوانب دون تفسير، وأدت الخصائص التي ظهرت كأخطاء إلى نتائج بطريقة ما. يصبح تعقيد PPO واضحًا عندما تتعمق في التفاصيل، وبالنسبة لأولئك المهتمين بالفهم العميق أو التحسين الذاتي، يتوفر ملخص فيديو موصى به للغاية.
لكن القصة لا تنتهي عند هذا الحد. قرر نفس المؤلفين إعادة النظر في openai/lm-مستودع التفضيلات البشرية من عام 2019، والتي لعبت دورًا حاسمًا في تحسين نماذج اللغة بناءً على التفضيلات البشرية، باستخدام PPO. يمثل هذا المستودع التطورات المبكرة في ChatGPT. منشور المدونة الأخير ، "تفاصيل تنفيذ N لـ RLHF مع PPO"، يتكرر بشكل وثيق OpenAIيعمل ولكنه يستخدم PyTorch والمكتبات الحديثة بدلاً من TensorFlow القديم. جاء هذا التحول مصحوبًا بمجموعة من التحديات الخاصة به، مثل الاختلافات في تنفيذ مُحسِّن Adam بين الأطر، مما يجعل من المستحيل تكرار التدريب دون تعديلات.
ولعل الجانب الأكثر إثارة للاهتمام في هذه الرحلة هو السعي لإجراء تجارب على إعدادات معينة لوحدة معالجة الرسومات للحصول على مقاييس أصلية ومنحنيات التعلم. إنها رحلة مليئة بالتحديات، بدءًا من قيود الذاكرة على أنواع وحدات معالجة الرسومات المختلفة وحتى ترحيل وحدات معالجة الرسومات OpenAI مجموعات البيانات بين مرافق التخزين.
في الختام، فإن استكشاف تحسين السياسة القريبة (PPO) في تعزيز التعلم من ردود الفعل البشرية (RLHF) يكشف عن عالم رائع من التعقيدات.
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.