GPT-4ABŞ Vəkillər Kollegiyasının İmtahanındakı Performansı İddiaları ilə ziddiyyət təşkil edir
Qısaca
Müayinə GPT-4nin vahid Vəkillər Kollegiyasının İmtahanındakı performansı şəffaf qiymətləndirmə prosedurlarının və əlçatan məlumatların vacibliyini vurğulayaraq təxmin edilən və faktiki performans arasında uyğunsuzluq aşkar etdi.
OpenAI etimad qazanmaq və etibarlılığı təmin etmək üçün uyğunsuzluqları aradan qaldırmağa və süni intellekt modelinin qiymətləndirilməsinə daha əhatəli və etibarlı yanaşma inkişaf etdirməyə təşviq edilir.
Son bir araşdırmada GPT-4nin Uniforma Vəkillər Kollegiyasının İmtahanındakı çıxışı (EBU), düzgünlüyünə şübhələr yaranıb OpenAImodelin müvəffəqiyyət nisbəti ilə bağlı iddiaları. İlkin iddianın əksinə olaraq GPT-4 fərdlərin 90%-ni üstələyir, tapıntılar AI modelinin təxmin edilən və faktiki performansı arasında əhəmiyyətli uyğunsuzluq olduğunu göstərir. Bu açıqlama şəffaf qiymətləndirmə prosedurlarının və bu cür iddiaların təsdiqi üçün əlçatan məlumatların vacibliyini vurğulayır.
İmtahan həqiqi imkanlarını müəyyən etmək üçün müxtəlif amillərə diqqət yetirmişdir GPT-4. İlk olaraq, analiz İllinoys ştatında keçirilən fevral imtahanları bunu ortaya qoydu GPT-4'nin ballarına yaxınlaşdı 90 faiz. Bununla belə, bu ballara daha əvvəl iyul imtahanından kəsilən və beləliklə, ümumi orta göstəricidən aşağı bal toplayan təkrarənlərin böyük təsiri olduğu müşahidə edilmişdir.
Üstəlik, iyul imtahanının nəticələri də ziddiyyət təşkil edib OpenAI'nin iddiaları bunu ortaya qoyur GPT-4 yalnız olardı Daha üstündür İnsanların 68%-i və esselərin 48%-i. GPT-4Müxtəlif dövrlərdə bir neçə testdən əldə edilən rəsmi məlumatlar nəzərə alındıqda ilk dəfə imtahan verənlərə qarşı performansı (təkrar imtahanlar istisna olmaqla) 63-cü faiz səviyyəsində qiymətləndirilmiş, esselər isə 41-ci faizdə xeyli aşağı olmuşdur.
İmtahandan uğurla keçənlərin, o cümlədən lisenziyalı şəxslərin və lisenziya gözləyənlərin fəaliyyətinin yoxlanılması əlavə perspektiv əldə edilib. Bu mövzuda, GPT-4nin ümumi performansı 48-ci faizdə, esselər isə 15-ci faizdə daha da pisləşdi.
Bu tapıntılar narahatlıq doğursa da, nəzərdən keçirmə prosesində insan səhvi ehtimalını nəzərə almaq çox vacibdir. Məqalənin müəllifi tədqiqatçıların qiymətləndirmək üçün istifadə etdiyi nümunənin başa düşülməsinin vacibliyini vurğulayır. GPT-4-nin performansı. Rəsmi məlumatların, xüsusən də ümumiləşdirilmiş formada olmaması, faizlərin ədalətli müqayisəsini və qiymətləndirilməsini çətinləşdirir. Bütün maraqlı tərəflər tərəfindən qiymətləndirilə bilən aydın və əlçatan qiymətləndirmə üsullarının yaradılması çox vacibdir.
Bu narahatlıqlara cavab olaraq, OpenAI uyğunsuzluqları aradan qaldırmağa çağırılır və əlavə məlumat verir qiymətləndirmə prosesinə daxil edilir. Şəffaflıq və açıqlıq inam qazanmaq və AI modellərinin hüquq kimi yüksək riskli sahələrdə etibarlılığını təmin etmək üçün vacibdir.
Qeyd etmək lazımdır ki, məqalədə əldə olunan xüsusi baldan bəhs edilmir GPT-4298 olduğu bildirilir. Bu balın əhəmiyyətini qiymətləndirmək üçün istifadə olunan qiymətləndirmə sisteminin kontekstdə başa düşülməsi tələb olunur. Necə ki, məktəbdən evə B ilə gələn uşaq ya şənliyə, ya da məyusluğa səbəb ola bilər. GPT-4's balı istifadə edilən miqyasdan asılıdır.
Qiymətləndirilməsi GPT-4vəkillik imtahanındakı performansı ciddi narahatlıq doğurur doğruluğu haqqında OpenAIilkin iddialar. Təxmini və faktiki performans arasındakı boşluq aydın qiymətləndirmə sistemlərinin və asanlıqla əldə edilə bilən məlumatların vacibliyini vurğulayır. OpenAI bu problemləri həll etməyə və daha əhatəli və inkişaf etdirməyə təşviq edilir AI-yə etibarlı yanaşma modelin qiymətləndirilməsi.
AI haqqında daha çox oxuyun:
Məsuliyyətdən imtina
uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.
Müəllif haqqında
Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.
Ətraflı məqalələrDamir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.