Tədqiqatçılar təkrarladılar OpenAIRLHF-də Proksimal Siyasət Optimizasiyasına (PPO) əsaslanan işi
İnsan Əlaqəsindən Gücləndirici Öyrənmə (RLHF) kimi təlim sistemlərinin tərkib hissəsidir ChatGPT, və müvəffəqiyyət əldə etmək üçün xüsusi üsullara əsaslanır. Bu üsullardan biri, Proksimal Siyasət Optimizasiyası (PPO) əvvəlcə idi düşünüləcək divarları içərisində OpenAI 2017-ci ildə. İlk baxışda PPO həyata keçirilməsində sadəlik və modeli dəqiqləşdirmək üçün tələb olunan hiperparametrlərin nisbətən az olması vədi ilə seçilirdi. Halbuki, necə deyərlər, şeytan təfərrüatlardadır.
Bu yaxınlarda bir blog yazısı "Proksimal Siyasət Optimizasiyasının 37 Tətbiq Təfərrüatları” PPO-nun incəliklərinə işıq salır (ICLR konfransı üçün hazırlanmışdır). Təkcə ad bu sadə metodun həyata keçirilməsində üzləşdiyi çətinliklərə işarə edir. Təəccüblüdür ki, müəlliflərə bütün lazımi məlumatları toplamaq və nəticələri təkrarlamaq üç il çəkdi.
İçindəki kod OpenAI repozitoriya versiyalar arasında əhəmiyyətli dəyişikliklərə məruz qaldı, bəzi aspektlər açıqlanmadı və səhv kimi görünən xüsusiyyətlər bir növ nəticələr verdi. PPO-nun mürəkkəbliyi təfərrüatları araşdırdığınız zaman aydın olur və dərindən başa düşmək və ya özünü təkmilləşdirmək istəyənlər üçün yüksək tövsiyə olunan video xülasəsi mövcuddur.
Amma hekayə bununla bitmir. Eyni müəlliflər yenidən nəzərdən keçirmək qərarına gəldilər openai/lm-insan-tercihlər deposu 2019-cu ildən PPO-dan istifadə edərək, insan seçimlərinə əsaslanan dil modellərinin dəqiq tənzimlənməsində mühüm rol oynamışdır. Bu depo ilk inkişafları qeyd etdi ChatGPT. Son blog yazısı, "PPO ilə RLHF-nin N Tətbiq Təfərrüatları,” yaxından təkrarlayır OpenAI's işidir, lakin köhnəlmiş TensorFlow əvəzinə PyTorch və müasir kitabxanalardan istifadə edir. Bu keçid, çərçivələr arasında Adam optimallaşdırıcısının tətbiqindəki fərqlər kimi özünəməxsus çətinliklər dəsti ilə gəldi və bu, düzəlişlər olmadan təlimin təkrarlanmasını qeyri-mümkün etdi.
Bəlkə də bu səyahətin ən maraqlı tərəfi orijinal ölçülər və öyrənmə əyriləri əldə etmək üçün xüsusi GPU quraşdırmaları üzərində təcrübələr aparmaq axtarışıdır. Bu, müxtəlif GPU növlərində yaddaş məhdudiyyətlərindən tutmuş kompüterlərin miqrasiyasına qədər çətinliklərlə dolu bir səyahətdir. OpenAI saxlama qurğuları arasında verilənlər bazası.
Nəticə olaraq, İnsan Rəyindən Gücləndirici Öyrənmədə (RLHF) Proksimal Siyasət Optimizasiyasının (PPO) tədqiqi mürəkkəbliklərin füsunkar dünyasını ortaya qoyur.
Məsuliyyətdən imtina
uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.
Müəllif haqqında
Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.
Ətraflı məqalələrDamir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.