Stanford Araşdırması təsdiq edir GPT-4 Axmaqlaşır
Qısaca
Stanford və UC Berkeley-dən Matei Zaharia və komandası tərəfindən aparılan bir araşdırma, performansını müqayisə etdi GPT-4 və ChatGPT modelin effektivliyi ilə bağlı istifadəçi narahatlıqlarını həll etmək.
Tədqiqat modelləri dörd xüsusi tapşırıq üzrə qiymətləndirdi: riyaziyyat, kodlaşdırma, həssaslıq və vizual əsaslandırma.
Matei Zaharia və onun komandası Stanford və UC Berkeley bir araşdırma etdi performansını müqayisə edən GPT-4 üçün ChatGPT. Bu araşdırma, modelin effektivliyinin azalması ilə bağlı istifadəçilərin narahatlıqlarını aradan qaldırmağa çalışdı.
Tədqiqatçılar tədqiqatı dörd xüsusi tapşırıq üzrə modelləri qiymətləndirmək üçün tərtib ediblər. Bu vəzifələrə aşağıdakılar daxildir:
- Riyaziyyat: Modelin verilmiş ədədin sadə və ya mürəkkəb olduğunu müəyyən etmək qabiliyyəti.
- Kodlaşdırma: Modelin mənalı və funksional kod yaratmaq qabiliyyətinin qiymətləndirilməsi.
- Həssaslıq: Potensial “toksik” məzmunlu suallara modelin cavablarının təhlili.
- Vizual mülahizə: ARC etalonundan istifadə edərək, modelin vizual nümunələri əhatə edən problemləri həll etmək qabiliyyətini yoxlamaq. İştirakçılar şəkillər toplusunda nümunələri müəyyən etməli və yeni nümunəni həll etmək üçün onları tətbiq etməli idilər.
Riyaziyyat sahəsində hər ikisi GPT-4 versiyaları, mart və iyun buraxılışları, əsas və mürəkkəb ədədlərin müəyyən edilməsində ardıcıl dəqiqliyi nümayiş etdirdi. Modellər etibarlı nəticələr verərək bu hesablamaları idarə etməkdə bacarıq nümayiş etdirdi.
Kodlaşdırmaya keçək, GPT-4 sələfləri ilə müqayisədə mənalı və funksional kod yaratmaq üçün təkmilləşdirilmiş qabiliyyəti nümayiş etdirdi. Modelin kod yaratma imkanları inkişaf etdiricilər və proqramçılar üçün potensial faydalar təklif edərək vəd göstərdi.
Həssaslıqla bağlı araşdırmada modellərin potensial zərərli və ya təhqiredici məzmunu olan suallara cavabları qiymətləndirilib. GPT-4 təkmilləşdirilmiş həssaslıq təhlili nümayiş etdirdi və bu cür kontekstlərdə müvafiq cavablar vermək üçün təkmilləşdirilmiş bacarıq nümayiş etdirdi. Bu, potensial problemli nəticələrlə bağlı istifadəçi narahatlıqlarının həllində irəliyə doğru müsbət addım deməkdir.
Nəhayət, ARC etalonuna əsaslanan vizual əsaslandırma tapşırıqları hər ikisi tərəfindən uğurla tamamlandı GPT-4 versiyaları. Modellər şəkil dəstləri daxilində nümunələri effektiv şəkildə müəyyən etdi və yeni nümunələri həll etmək üçün bu nümunələri tətbiq etmək bacarığını nümayiş etdirdi. Bu, onların vizual anlama və düşünmə qabiliyyətini nümayiş etdirir.
ChatGPT İyun ayına qədər performans göstəricilərində əhəmiyyətli artım nümayiş etdirərək, on dəfədən çox nəzərəçarpacaq yaxşılaşma nümayiş etdirdi. Tədqiqat bu təkmilləşdirməyə kömək edən spesifik amilləri araşdırmasa da, vurğulayır ChatGPTnin riyazi əsaslandırma və problem həll etmə bacarıqlarında irəliləyiş.
Keyfiyyəti GPT-4 və ChatGPT proqramlaşdırma qabiliyyətinin təhlilindən sonra sorğu-sual edilib. Bununla belə, daha yaxından baxmaq ilk təəssüratlarla ziddiyyət təşkil edən bəzi maraqlı nüansları ortaya qoyur.
Müəlliflər kodu yerinə yetirməyib və ya düzgünlüyünü yoxlamayıblar; onların qiymətləndirilməsi yalnız onun Python kodu kimi etibarlılığına əsaslanırdı. Bundan əlavə, modellər, kodun icrasına istəmədən mane olan dekoratordan istifadə edərək xüsusi kod çərçivələmə texnikasını öyrənmiş kimi görünürdü.
Nəticədə aydın olur ki, nə nəticələr, nə də təcrübənin özü modelin deqradasiyasına sübut kimi qəbul edilə bilməz. Əvəzində, modellər təlimlərində potensial dəyişiklikləri əks etdirərək cavabların yaradılmasına fərqli yanaşma nümayiş etdirirlər.
Proqramlaşdırma tapşırıqlarına gəldikdə, hər iki model "yanlış" göstərişlərə cavab verməkdə azalma göstərdi. GPT-4 belə hallarda dörd dəfədən çox azalma nümayiş etdirir. Bundan əlavə, Vizual Müzakirə tapşırığında cavabların keyfiyyəti hər iki model üçün bir neçə faiz bəndi yaxşılaşdı. Bu müşahidələr performansın pisləşməsini deyil, irəliləyiş olduğunu göstərir.
Bununla belə, riyazi bacarıqların qiymətləndirilməsi maraqlı element təqdim edir. Modellər ardıcıl olaraq “bəli” cavabını göstərən əsas nömrələri cavab olaraq təqdim etdilər. Bununla belə, nümunəyə kompozit nömrələr daxil edildikdən sonra məlum oldu ki, modellər davranışlarını dəyişib və keyfiyyətin aşağı düşməsindən çox qeyri-müəyyənliyi təklif edən “yox” cavablarını verməyə başlayıblar. Testin özü özünəməxsus və birtərəflidir, və onun nəticələri keyfiyyətin azalması ilə deyil, model davranışındakı dəyişikliklərlə əlaqələndirilə bilər.
Qeyd etmək vacibdir ki, brauzer əsaslı versiyalar yox, API versiyaları sınaqdan keçirilmişdir. Brauzerdəki modellərin resursları optimallaşdırmaq üçün düzəlişlərə məruz qalması mümkün olsa da, əlavə edilən araşdırma bunu etmir defibu fərziyyəni əsaslı şəkildə sübut edin. Bu cür dəyişikliklərin təsiri faktiki model səviyyəsinin aşağı salınması ilə müqayisə oluna bilər ki, bu da xüsusi işə güvənən istifadəçilər üçün potensial problemlərə gətirib çıxarır. ister və toplanmış təcrübə.
Halda GPT-4 API proqramlarında davranışdakı bu sapmalar hiss edilə bilən nəticələrə səbəb ola bilər. Xüsusi istifadəçinin ehtiyacları və tapşırıqları əsasında hazırlanmış kod, model davranışında dəyişikliklərə məruz qaldıqda, artıq nəzərdə tutulduğu kimi işləməyə bilər.
İstifadəçilərə oxşar sınaq təcrübələrini öz iş axınlarına daxil etmələri tövsiyə olunur. Bir sıra göstərişlər, müşayiət olunan mətnlər və gözlənilən nəticələr yaratmaqla istifadəçilər öz gözləntiləri ilə modelin cavabları arasında uyğunluğu müntəzəm olaraq yoxlaya bilərlər. Hər hansı bir sapma aşkar edildikdə, vəziyyəti düzəltmək üçün müvafiq tədbirlər görülə bilər.
AI haqqında daha çox oxuyun:
Məsuliyyətdən imtina
uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.
Müəllif haqqında
Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.
Ətraflı məqalələrDamir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.