Xəbər Hesabatı Texnologiya
İyul 20, 2023

Stanford Araşdırması təsdiq edir GPT-4 Axmaqlaşır

Qısaca

Stanford və UC Berkeley-dən Matei Zaharia və komandası tərəfindən aparılan bir araşdırma, performansını müqayisə etdi GPT-4 və ChatGPT modelin effektivliyi ilə bağlı istifadəçi narahatlıqlarını həll etmək.

Tədqiqat modelləri dörd xüsusi tapşırıq üzrə qiymətləndirdi: riyaziyyat, kodlaşdırma, həssaslıq və vizual əsaslandırma.

Matei Zaharia və onun komandası Stanford və UC Berkeley bir araşdırma etdi performansını müqayisə edən GPT-4 üçün ChatGPT. Bu araşdırma, modelin effektivliyinin azalması ilə bağlı istifadəçilərin narahatlıqlarını aradan qaldırmağa çalışdı.

Stanford Araşdırması təsdiq edir GPT-4 Axmaqlaşır
Kredit: Metaverse Post
əlaqədar: GPT-4 vs GPT-3: Yeni Model nə təklif edir?

Tədqiqatçılar tədqiqatı dörd xüsusi tapşırıq üzrə modelləri qiymətləndirmək üçün tərtib ediblər. Bu vəzifələrə aşağıdakılar daxildir:

  • Riyaziyyat: Modelin verilmiş ədədin sadə və ya mürəkkəb olduğunu müəyyən etmək qabiliyyəti.
  • Kodlaşdırma: Modelin mənalı və funksional kod yaratmaq qabiliyyətinin qiymətləndirilməsi.
  • Həssaslıq: Potensial “toksik” məzmunlu suallara modelin cavablarının təhlili.
  • Vizual mülahizə: ARC etalonundan istifadə edərək, modelin vizual nümunələri əhatə edən problemləri həll etmək qabiliyyətini yoxlamaq. İştirakçılar şəkillər toplusunda nümunələri müəyyən etməli və yeni nümunəni həll etmək üçün onları tətbiq etməli idilər.

Riyaziyyat sahəsində hər ikisi GPT-4 versiyaları, mart və iyun buraxılışları, əsas və mürəkkəb ədədlərin müəyyən edilməsində ardıcıl dəqiqliyi nümayiş etdirdi. Modellər etibarlı nəticələr verərək bu hesablamaları idarə etməkdə bacarıq nümayiş etdirdi.

Kodlaşdırmaya keçək, GPT-4 sələfləri ilə müqayisədə mənalı və funksional kod yaratmaq üçün təkmilləşdirilmiş qabiliyyəti nümayiş etdirdi. Modelin kod yaratma imkanları inkişaf etdiricilər və proqramçılar üçün potensial faydalar təklif edərək vəd göstərdi.

Həssaslıqla bağlı araşdırmada modellərin potensial zərərli və ya təhqiredici məzmunu olan suallara cavabları qiymətləndirilib. GPT-4 təkmilləşdirilmiş həssaslıq təhlili nümayiş etdirdi və bu cür kontekstlərdə müvafiq cavablar vermək üçün təkmilləşdirilmiş bacarıq nümayiş etdirdi. Bu, potensial problemli nəticələrlə bağlı istifadəçi narahatlıqlarının həllində irəliyə doğru müsbət addım deməkdir.

Nəhayət, ARC etalonuna əsaslanan vizual əsaslandırma tapşırıqları hər ikisi tərəfindən uğurla tamamlandı GPT-4 versiyaları. Modellər şəkil dəstləri daxilində nümunələri effektiv şəkildə müəyyən etdi və yeni nümunələri həll etmək üçün bu nümunələri tətbiq etmək bacarığını nümayiş etdirdi. Bu, onların vizual anlama və düşünmə qabiliyyətini nümayiş etdirir.

Nəticələr bunu göstərir GPT-4 düzgün cavabların yalnız 2%-dən bir qədər çoxu ilə dəqiqlikdə azalma nümayiş etdirdi. Qeyd etmək vacibdir ki, bu xüsusi test, ilk növbədə, modelin özünəməxsus riyazi qabiliyyətlərini nümayiş etdirməkdənsə, məlumatları xatırlamaq qabiliyyətini qiymətləndirir. Tapşırıq yaddaşın geri çağırılması ətrafında fırlanır, çünki modelin hesablamaların yoxlanılması və nəticə çıxarmaq qabiliyyəti yoxdur, xüsusən də əsas ədədlərə gəldikdə.

ChatGPT İyun ayına qədər performans göstəricilərində əhəmiyyətli artım nümayiş etdirərək, on dəfədən çox nəzərəçarpacaq yaxşılaşma nümayiş etdirdi. Tədqiqat bu təkmilləşdirməyə kömək edən spesifik amilləri araşdırmasa da, vurğulayır ChatGPTnin riyazi əsaslandırma və problem həll etmə bacarıqlarında irəliləyiş.

Tədqiqat yaradılan kodun keyfiyyətini və ya düzgünlüyünü qiymətləndirmədi. Bunun əvəzinə, modellər funksional dəqiqliyini təmin etmədən kod parçalarını təklif edərək daha “xüsusi” davranış nümayiş etdirdilər.
əlaqədar: 10-cü ildə 2023+ Ən Yaxşı AI Foto Artırıcıları

Keyfiyyəti GPT-4 və ChatGPT proqramlaşdırma qabiliyyətinin təhlilindən sonra sorğu-sual edilib. Bununla belə, daha yaxından baxmaq ilk təəssüratlarla ziddiyyət təşkil edən bəzi maraqlı nüansları ortaya qoyur.

Müəlliflər kodu yerinə yetirməyib və ya düzgünlüyünü yoxlamayıblar; onların qiymətləndirilməsi yalnız onun Python kodu kimi etibarlılığına əsaslanırdı. Bundan əlavə, modellər, kodun icrasına istəmədən mane olan dekoratordan istifadə edərək xüsusi kod çərçivələmə texnikasını öyrənmiş kimi görünürdü.

Nəticədə aydın olur ki, nə nəticələr, nə də təcrübənin özü modelin deqradasiyasına sübut kimi qəbul edilə bilməz. Əvəzində, modellər təlimlərində potensial dəyişiklikləri əks etdirərək cavabların yaradılmasına fərqli yanaşma nümayiş etdirirlər.

Proqramlaşdırma və riyaziyyat bacarıqlarının yoxlanılması GPT-4 və ChatGPT maraqlı tapıntılara işıq salıb. İlkin fərziyyələrin əksinə olaraq, modellər müəyyən sahələrdə nəzərəçarpacaq irəliləyişlər nümayiş etdirib, digərlərində isə davranış dəyişiklikləri nümayiş etdirib.

Proqramlaşdırma tapşırıqlarına gəldikdə, hər iki model "yanlış" göstərişlərə cavab verməkdə azalma göstərdi. GPT-4 belə hallarda dörd dəfədən çox azalma nümayiş etdirir. Bundan əlavə, Vizual Müzakirə tapşırığında cavabların keyfiyyəti hər iki model üçün bir neçə faiz bəndi yaxşılaşdı. Bu müşahidələr performansın pisləşməsini deyil, irəliləyiş olduğunu göstərir.

Bununla belə, riyazi bacarıqların qiymətləndirilməsi maraqlı element təqdim edir. Modellər ardıcıl olaraq “bəli” cavabını göstərən əsas nömrələri cavab olaraq təqdim etdilər. Bununla belə, nümunəyə kompozit nömrələr daxil edildikdən sonra məlum oldu ki, modellər davranışlarını dəyişib və keyfiyyətin aşağı düşməsindən çox qeyri-müəyyənliyi təklif edən “yox” cavablarını verməyə başlayıblar. Testin özü özünəməxsus və birtərəflidir, və onun nəticələri keyfiyyətin azalması ilə deyil, model davranışındakı dəyişikliklərlə əlaqələndirilə bilər.

Qeyd etmək vacibdir ki, brauzer əsaslı versiyalar yox, API versiyaları sınaqdan keçirilmişdir. Brauzerdəki modellərin resursları optimallaşdırmaq üçün düzəlişlərə məruz qalması mümkün olsa da, əlavə edilən araşdırma bunu etmir defibu fərziyyəni əsaslı şəkildə sübut edin. Bu cür dəyişikliklərin təsiri faktiki model səviyyəsinin aşağı salınması ilə müqayisə oluna bilər ki, bu da xüsusi işə güvənən istifadəçilər üçün potensial problemlərə gətirib çıxarır. ister və toplanmış təcrübə.

Halda GPT-4 API proqramlarında davranışdakı bu sapmalar hiss edilə bilən nəticələrə səbəb ola bilər. Xüsusi istifadəçinin ehtiyacları və tapşırıqları əsasında hazırlanmış kod, model davranışında dəyişikliklərə məruz qaldıqda, artıq nəzərdə tutulduğu kimi işləməyə bilər.

İstifadəçilərə oxşar sınaq təcrübələrini öz iş axınlarına daxil etmələri tövsiyə olunur. Bir sıra göstərişlər, müşayiət olunan mətnlər və gözlənilən nəticələr yaratmaqla istifadəçilər öz gözləntiləri ilə modelin cavabları arasında uyğunluğu müntəzəm olaraq yoxlaya bilərlər. Hər hansı bir sapma aşkar edildikdə, vəziyyəti düzəltmək üçün müvafiq tədbirlər görülə bilər.

AI haqqında daha çox oxuyun:

Məsuliyyətdən imtina

uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.

Müəllif haqqında

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

Ətraflı məqalələr
Damir Yalalov
Damir Yalalov

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

İnstitusional iştah dəyişkənlik fonunda Bitcoin ETF-lərə doğru artır

13F sənədləri vasitəsilə edilən açıqlamalar, Bitcoin ETF-ləri ilə məşğul olan görkəmli institusional investorları ortaya qoyur və bu, artan qəbulu vurğulayır ...

Daha çox məlumat

Hökm günü gəldi: ABŞ Məhkəməsi DOJ-nin iddiasını nəzərdən keçirərkən CZ-nin taleyi tarazlıqda qalır

Changpeng Zhao bu gün Sietldəki ABŞ məhkəməsində hökm oxumağa hazırlaşır.

Daha çox məlumat
İnnovativ Texniki İcmamıza Qoşulun
Daha çox oxu
Daha çox oxu
Nexo, istifadəçiləri öz ekosistemi ilə məşğul olduqları üçün NEXO tokenləri ilə 12 milyon dollar mükafatlandırmaq üçün "Ov"a başlayır
Markets Xəbər Hesabatı Texnologiya
Nexo, istifadəçiləri öz ekosistemi ilə məşğul olduqları üçün NEXO tokenləri ilə 12 milyon dollar mükafatlandırmaq üçün "Ov"a başlayır
8 May 2024
Revolut-un Revolut X Exchange kriptovalyutalarını sıfır istehsalçı haqları və qabaqcıl analitika ilə cəlb edir.
Markets Proqram təminatı Hekayələr və Rəylər Texnologiya
Revolut-un Revolut X Exchange kriptovalyutalarını sıfır istehsalçı haqları və qabaqcıl analitika ilə cəlb edir.
8 May 2024
Kripto Ticarət Platforması BitMEX 0 Komisyon və Pul Təşviqi ilə Ticarət Seçimlərini Debüt edir
Biznes Markets Xəbər Hesabatı
Kripto Ticarət Platforması BitMEX 0 Komisyon və Pul Təşviqi ilə Ticarət Seçimlərini Debüt edir
8 May 2024
Lisk Rəsmi olaraq Ethereum Layer 2-ə Keçdi və Core v4.0.6-nı Açdı
Xəbər Hesabatı Texnologiya
Lisk Rəsmi olaraq Ethereum Layer 2-ə Keçdi və Core v4.0.6-nı Açdı
8 May 2024
CRYPTOMERIA LABS PTE. LTD.