Xəbər Hesabatı Texnologiya
Oktyabr 27, 2023

Tədqiqatçılar təkrarladılar OpenAIRLHF-də Proksimal Siyasət Optimizasiyasına (PPO) əsaslanan işi

İnsan Əlaqəsindən Gücləndirici Öyrənmə (RLHF) kimi təlim sistemlərinin tərkib hissəsidir ChatGPT, və müvəffəqiyyət əldə etmək üçün xüsusi üsullara əsaslanır. Bu üsullardan biri, Proksimal Siyasət Optimizasiyası (PPO) əvvəlcə idi düşünüləcək divarları içərisində OpenAI 2017-ci ildə. İlk baxışda PPO həyata keçirilməsində sadəlik və modeli dəqiqləşdirmək üçün tələb olunan hiperparametrlərin nisbətən az olması vədi ilə seçilirdi. Halbuki, necə deyərlər, şeytan təfərrüatlardadır.

Tədqiqatçılar təkrarladılar OpenAIRLHF-də Proksimal Siyasət Optimizasiyasına (PPO) əsaslanan işi

Bu yaxınlarda bir blog yazısı "Proksimal Siyasət Optimizasiyasının 37 Tətbiq Təfərrüatları” PPO-nun incəliklərinə işıq salır (ICLR konfransı üçün hazırlanmışdır). Təkcə ad bu sadə metodun həyata keçirilməsində üzləşdiyi çətinliklərə işarə edir. Təəccüblüdür ki, müəlliflərə bütün lazımi məlumatları toplamaq və nəticələri təkrarlamaq üç il çəkdi.

İçindəki kod OpenAI repozitoriya versiyalar arasında əhəmiyyətli dəyişikliklərə məruz qaldı, bəzi aspektlər açıqlanmadı və səhv kimi görünən xüsusiyyətlər bir növ nəticələr verdi. PPO-nun mürəkkəbliyi təfərrüatları araşdırdığınız zaman aydın olur və dərindən başa düşmək və ya özünü təkmilləşdirmək istəyənlər üçün yüksək tövsiyə olunan video xülasəsi mövcuddur.

Amma hekayə bununla bitmir. Eyni müəlliflər yenidən nəzərdən keçirmək qərarına gəldilər openai/lm-insan-tercihlər deposu 2019-cu ildən PPO-dan istifadə edərək, insan seçimlərinə əsaslanan dil modellərinin dəqiq tənzimlənməsində mühüm rol oynamışdır. Bu depo ilk inkişafları qeyd etdi ChatGPT. Son blog yazısı, "PPO ilə RLHF-nin N Tətbiq Təfərrüatları,” yaxından təkrarlayır OpenAI's işidir, lakin köhnəlmiş TensorFlow əvəzinə PyTorch və müasir kitabxanalardan istifadə edir. Bu keçid, çərçivələr arasında Adam optimallaşdırıcısının tətbiqindəki fərqlər kimi özünəməxsus çətinliklər dəsti ilə gəldi və bu, düzəlişlər olmadan təlimin təkrarlanmasını qeyri-mümkün etdi.

Bəlkə də bu səyahətin ən maraqlı tərəfi orijinal ölçülər və öyrənmə əyriləri əldə etmək üçün xüsusi GPU quraşdırmaları üzərində təcrübələr aparmaq axtarışıdır. Bu, müxtəlif GPU növlərində yaddaş məhdudiyyətlərindən tutmuş kompüterlərin miqrasiyasına qədər çətinliklərlə dolu bir səyahətdir. OpenAI saxlama qurğuları arasında verilənlər bazası.

Nəticə olaraq, İnsan Rəyindən Gücləndirici Öyrənmədə (RLHF) Proksimal Siyasət Optimizasiyasının (PPO) tədqiqi mürəkkəbliklərin füsunkar dünyasını ortaya qoyur.

Məsuliyyətdən imtina

uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.

Müəllif haqqında

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

Ətraflı məqalələr
Damir Yalalov
Damir Yalalov

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

Hot Stories
Bülletenimizə Qoşulun.
Son Xəbərlər

İnstitusional iştah dəyişkənlik fonunda Bitcoin ETF-lərə doğru artır

13F sənədləri vasitəsilə edilən açıqlamalar, Bitcoin ETF-ləri ilə məşğul olan görkəmli institusional investorları ortaya qoyur və bu, artan qəbulu vurğulayır ...

Daha çox məlumat

Hökm günü gəldi: ABŞ Məhkəməsi DOJ-nin iddiasını nəzərdən keçirərkən CZ-nin taleyi tarazlıqda qalır

Changpeng Zhao bu gün Sietldəki ABŞ məhkəməsində hökm oxumağa hazırlaşır.

Daha çox məlumat
İnnovativ Texniki İcmamıza Qoşulun
Daha çox oxu
Daha çox oxu
Kripto Birjası OKX, mayın 16-da NOT-USDT cütü ilə Spot ticarətini təqdim etməyə hazır olan Notcoin-i siyahıya alır.
Markets Xəbər Hesabatı Texnologiya
Kripto Birjası OKX, mayın 16-da NOT-USDT cütü ilə Spot ticarətini təqdim etməyə hazır olan Notcoin-i siyahıya alır.  
10 May 2024
Blast Üçüncü Blast Qızıl Dağıtım Tədbirini Başladı, DApp-lara 15M Bal Ayır
Markets Xəbər Hesabatı Texnologiya
Blast Üçüncü Blast Qızıl Dağıtım Tədbirini Başladı, DApp-lara 15M Bal Ayır
10 May 2024
Espresso Sistemləri, Rollup Birlikdə İşləkliyini Artırmaq üçün AggLayer hazırlamaq üçün Polyqon Laboratoriyaları ilə əməkdaşlıq edir
Biznes Xəbər Hesabatı Texnologiya
Espresso Sistemləri, Rollup Birlikdə İşləkliyini Artırmaq üçün AggLayer hazırlamaq üçün Polyqon Laboratoriyaları ilə əməkdaşlıq edir
9 May 2024
ZKP ilə işləyən İnfrastruktur Protokolu ZKBase Yol Xəritəsini açıqlayır, Testnetin May ayında işə salınmasını planlaşdırır
Xəbər Hesabatı Texnologiya
ZKP ilə işləyən İnfrastruktur Protokolu ZKBase Yol Xəritəsini açıqlayır, Testnetin May ayında işə salınmasını planlaşdırır
9 May 2024
CRYPTOMERIA LABS PTE. LTD.