محققان تکرار کردند OpenAIکار بر اساس بهینه سازی سیاست پروگزیمال (PPO) در RLHF
یادگیری تقویتی از بازخورد انسانی (RLHF) بخشی جدایی ناپذیر از سیستم های آموزشی مانند ChatGPTو برای رسیدن به موفقیت بر روش های تخصصی تکیه دارد. یکی از این روش ها، بهینه سازی سیاست پروگزیمال (PPO)، در ابتدا بود تصور می شود درون دیوارهای OpenAI در سال 2017. در نگاه اول، PPO به دلیل قول سادگی در پیاده سازی و تعداد نسبتاً کم فراپارامترهای مورد نیاز برای تنظیم دقیق مدل متمایز بود. با این حال، همانطور که می گویند، شیطان در جزئیات است.
اخیراً یک پست وبلاگی با عنوان "37 جزئیات پیاده سازی بهینه سازی سیاست پروگزیمالپیچیدگیهای PPO (آماده شده برای کنفرانس ICLR) را روشن کرد. این نام به تنهایی به چالش های پیش روی اجرای این روش ظاهراً ساده اشاره دارد. به طور شگفت انگیزی، سه سال طول کشید تا نویسندگان تمام اطلاعات لازم را جمع آوری کرده و نتایج را بازتولید کنند.
کد در OpenAI مخزن دستخوش تغییرات قابل توجهی بین نسخهها شد، برخی از جنبهها بدون توضیح باقی ماندند، و ویژگیهایی که بهعنوان باگ ظاهر میشدند به نحوی نتیجهای را ایجاد کردند. پیچیدگی PPO زمانی آشکار می شود که به جزئیات بپردازید، و برای کسانی که علاقه مند به درک عمیق یا بهبود خود هستند، یک خلاصه ویدیویی بسیار توصیه شده در دسترس است.
اما داستان به همین جا ختم نمی شود. همان نویسندگان تصمیم گرفتند که دوباره به آن مراجعه کنند openai/lm-human-preferences repository از سال 2019، که نقش مهمی در تنظیم دقیق مدلهای زبان بر اساس ترجیحات انسانی، با استفاده از PPO ایفا کرد. این مخزن تحولات اولیه را مشخص کرد ChatGPT. پست اخیر وبلاگ، "N جزئیات پیاده سازی RLHF با PPO"، از نزدیک تکرار می کند OpenAIکار می کند اما از PyTorch و کتابخانه های مدرن به جای TensorFlow قدیمی استفاده می کند. این انتقال با مجموعه ای از چالش ها همراه بود، مانند تفاوت در اجرای بهینه ساز Adam بین چارچوب ها، که تکرار آموزش بدون تنظیمات را غیرممکن می کند.
شاید جذابترین جنبه این سفر، تلاش برای اجرای آزمایشها بر روی تنظیمات GPU خاص برای به دست آوردن معیارهای اصلی و منحنیهای یادگیری باشد. این سفری پر از چالش است، از محدودیت های حافظه در انواع مختلف GPU تا مهاجرت OpenAI مجموعه داده ها بین تاسیسات ذخیره سازی
در نتیجه، کاوش بهینهسازی سیاست پروگزیمال (PPO) در یادگیری تقویتی از بازخورد انسانی (RLHF) دنیای شگفتانگیزی از پیچیدگیها را نشان میدهد.
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.