OpenAI: Yeni Prosesə Nəzarət Edilən Mükafat Modelləşdirməsi AI düşüncəsini təkmilləşdirir
Qısaca
OpenAI's proses nəzarətli mükafat modelləşdirməsi (PRM) təkmilləşdirilmiş performans və ölçülərə səbəb olan AI modellərinin aralıq addımlarını və əsaslandırmalarını qiymətləndirməyi hədəfləyir.
OpenAI prosesə nəzarət edilən mükafat modelləşdirməsində təməlqoyma işləri ilə bir daha AI cəmiyyətinin diqqətini çəkdi (PRM'ler). Bu yenilikçi yanaşma AI modellərinin aralıq addımlarını və əsaslandırmalarını qiymətləndirmək məqsədi daşıyır, nəticədə təkmilləşdirilmiş performans və ölçülərə gətirib çıxarır.
Ənənəvi möhkəmləndirmədə insan rəyindən öyrənmə (RLHF), model rəyi adətən model tərəfindən yaradılan ümumi nəticə əsasında verilir. Bununla belə, OpenAInin yeni araşdırması model tərəfindən atılan fərdi addımların və mülahizə proseslərinin qiymətləndirilməsi ideyasını araşdırır. Bununla onlar daha dəqiq qiymətləndirmələr və rəylər təqdim edə bilərlər.
Bu problemi həll etmək üçün OpenAI bir neçə hərəkət tələb edən seçilmiş riyazi problemlər. Ayrı bir model ilkin model tərəfindən edilən hər hansı səhv mülahizələri müəyyən etmək üçün tənqidçi kimi çıxış edərək, ara addımları effektiv şəkildə qiymətləndirmək üçün təlim keçmişdir. Bu proses nəinki ümumi performansı artırır, həm də modelin imkanlarını qiymətləndirmək üçün istifadə olunan göstəriciləri təkmilləşdirir.
OpenAI ibarət olan çox diqqətlə seçilmiş verilənlər toplusunun buraxılması ilə bu sahədə əhəmiyyətli addımlar atdı 800,000 işarələnmiş hökm. Hər bir mühakimə riyazi məsələlərin həllində ayrıca bir mərhələni təmsil edir və əl ilə yaradılmışdır. Bu, fədakarlıq və resursların səviyyəsini vurğulayır OpenAI yüksək keyfiyyətli məlumat dəstlərinin hazırlanmasına sərmayə qoyur, proqramlaşdırma və ya açıq suallar kimi digər domenlər üçün toplanmış məlumatların həcmi ilə bağlı sualların artırılması.
-nin təlimi GPT-4, OpenAI's son iterasiyası GPT seriyası artıq yaxşı gedir. RLHF komponenti cari təcrübələrə daxil edilməsə də, təmiz dil modeli istifadə olunur. Qeyd edək ki, OpenAI çoxlu versiyalarının olduğunu qeyd edir GPT-4, hətta ən kiçik versiya təlim üçün əhəmiyyətli dərəcədə daha az resurs tələb edir - təxminən 200 dəfə az.
tərəfindən paylaşılan maraqlı bir nümunə OpenAI modelin necə qiymətləndirdiyini nümayiş etdirir hər bir fərdi qərar addımı. Yazıya daxil edilmiş ekran görüntüsündə həlldəki səhvlər işarələnir və qırmızı rənglə vurğulanan ən aşağı düzgünlük balı verilir. Bu nümayiş modelin mülahizə yürütmə qabiliyyətini vurğulayır və onun qərar qəbul etmə prosesinə dəyərli fikirlər təqdim edir. OpenAI həmçinin kraudsorserlərə öz işlərindən töhfə vermək və faydalanmaq üçün imkanlar təklif edərək işarələmələr üçün təlimatlar təqdim etmişdir.
As OpenAI süni intellekt tədqiqatının sərhədlərini genişləndirməyə davam edir, onların diqqəti model əsaslandırmasına və prosesə nəzarət edilən mükafat modelləşdirməsinə yönəldilməsi təkmilləşdirilmiş AI imkanları üçün yeni imkanlar gətirir. Bu son sıçrayış onların model performansını yaxşılaşdırmaq öhdəliyini nümayiş etdirir və bu sahədə gələcək irəliləyişlərə qapı açır.
- Son zamanlar, Apple işçilərinin istifadəsini məhdudlaşdırdığı bildirilir ChatGPT və məxfilik problemlərinə görə süni intellektlə işləyən digər chatbotlar. The Wall Street Journal, işçilərin GitHub-un AI aləti Copilot-dan istifadə etmələrinin də məhdudlaşdırıldığını bildirdi. istifadəçilərə proqram kodunu avtomatik yazmağa imkan verir. ChatGPT tərəfindən hazırlanmış süni intellektlə işləyən chatbotdur OpenAIməxfilik pozuntularına görə tənqid edilən .
AI haqqında daha çox oxuyun:
Məsuliyyətdən imtina
uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.
Müəllif haqqında
Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.
Ətraflı məqalələrDamir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.