گزارش خبری پیشرفته
اکتبر 27، 2023

محققان تکرار کردند OpenAIکار بر اساس بهینه سازی سیاست پروگزیمال (PPO) در RLHF

یادگیری تقویتی از بازخورد انسانی (RLHF) بخشی جدایی ناپذیر از سیستم های آموزشی مانند ChatGPTو برای رسیدن به موفقیت بر روش های تخصصی تکیه دارد. یکی از این روش ها، بهینه سازی سیاست پروگزیمال (PPO)، در ابتدا بود تصور می شود درون دیوارهای OpenAI در سال 2017. در نگاه اول، PPO به دلیل قول سادگی در پیاده سازی و تعداد نسبتاً کم فراپارامترهای مورد نیاز برای تنظیم دقیق مدل متمایز بود. با این حال، همانطور که می گویند، شیطان در جزئیات است.

محققان تکرار کردند OpenAIکار بر اساس بهینه سازی سیاست پروگزیمال (PPO) در RLHF

اخیراً یک پست وبلاگی با عنوان "37 جزئیات پیاده سازی بهینه سازی سیاست پروگزیمالپیچیدگی‌های PPO (آماده شده برای کنفرانس ICLR) را روشن کرد. این نام به تنهایی به چالش های پیش روی اجرای این روش ظاهراً ساده اشاره دارد. به طور شگفت انگیزی، سه سال طول کشید تا نویسندگان تمام اطلاعات لازم را جمع آوری کرده و نتایج را بازتولید کنند.

کد در OpenAI مخزن دستخوش تغییرات قابل توجهی بین نسخه‌ها شد، برخی از جنبه‌ها بدون توضیح باقی ماندند، و ویژگی‌هایی که به‌عنوان باگ ظاهر می‌شدند به نحوی نتیجه‌ای را ایجاد کردند. پیچیدگی PPO زمانی آشکار می شود که به جزئیات بپردازید، و برای کسانی که علاقه مند به درک عمیق یا بهبود خود هستند، یک خلاصه ویدیویی بسیار توصیه شده در دسترس است.

اما داستان به همین جا ختم نمی شود. همان نویسندگان تصمیم گرفتند که دوباره به آن مراجعه کنند openai/lm-human-preferences repository از سال 2019، که نقش مهمی در تنظیم دقیق مدل‌های زبان بر اساس ترجیحات انسانی، با استفاده از PPO ایفا کرد. این مخزن تحولات اولیه را مشخص کرد ChatGPT. پست اخیر وبلاگ، "N جزئیات پیاده سازی RLHF با PPO"، از نزدیک تکرار می کند OpenAIکار می کند اما از PyTorch و کتابخانه های مدرن به جای TensorFlow قدیمی استفاده می کند. این انتقال با مجموعه ای از چالش ها همراه بود، مانند تفاوت در اجرای بهینه ساز Adam بین چارچوب ها، که تکرار آموزش بدون تنظیمات را غیرممکن می کند.

شاید جذاب‌ترین جنبه این سفر، تلاش برای اجرای آزمایش‌ها بر روی تنظیمات GPU خاص برای به دست آوردن معیارهای اصلی و منحنی‌های یادگیری باشد. این سفری پر از چالش است، از محدودیت های حافظه در انواع مختلف GPU تا مهاجرت OpenAI مجموعه داده ها بین تاسیسات ذخیره سازی

در نتیجه، کاوش بهینه‌سازی سیاست پروگزیمال (PPO) در یادگیری تقویتی از بازخورد انسانی (RLHF) دنیای شگفت‌انگیزی از پیچیدگی‌ها را نشان می‌دهد.

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
پروتکل زیرساختی مبتنی بر ZKP ZKBase نقشه راه را رونمایی کرد، برنامه تست نت را در ماه مه راه اندازی کرد
گزارش خبری پیشرفته
پروتکل زیرساختی مبتنی بر ZKP ZKBase نقشه راه را رونمایی کرد، برنامه تست نت را در ماه مه راه اندازی کرد
ممکن است 9، 2024
BLOCKCHANCE و CONF3RENCE برای بزرگترین آلمان متحد می شوند Web3 کنفرانس دورتموند
کسب و کار بازارها نرم افزار داستان ها و نقدها پیشرفته
BLOCKCHANCE و CONF3RENCE برای بزرگترین آلمان متحد می شوند Web3 کنفرانس دورتموند
ممکن است 9، 2024
NuLink در Bybit راه اندازی می شود Web3 پلتفرم IDO. مرحله اشتراک تا 13 اردیبهشت تمدید شد
بازارها گزارش خبری پیشرفته
NuLink در Bybit راه اندازی می شود Web3 پلتفرم IDO. مرحله اشتراک تا 13 اردیبهشت تمدید شد
ممکن است 9، 2024
همکاری UXLINK و بایننس در کمپین جدید، ارائه 20 میلیون امتیاز UXUY و به کاربران Airdrop پاداش
بازارها گزارش خبری پیشرفته
همکاری UXLINK و بایننس در کمپین جدید، ارائه 20 میلیون امتیاز UXUY و به کاربران Airdrop پاداش
ممکن است 9، 2024
CRYPTOMERIA LABS PTE. محدود