Xəbər Hesabatı SMW Texnologiya
30 May 2023

GPT-4ABŞ Vəkillər Kollegiyasının İmtahanındakı Performansı İddiaları ilə ziddiyyət təşkil edir

Qısaca

Müayinə GPT-4nin vahid Vəkillər Kollegiyasının İmtahanındakı performansı şəffaf qiymətləndirmə prosedurlarının və əlçatan məlumatların vacibliyini vurğulayaraq təxmin edilən və faktiki performans arasında uyğunsuzluq aşkar etdi.

OpenAI etimad qazanmaq və etibarlılığı təmin etmək üçün uyğunsuzluqları aradan qaldırmağa və süni intellekt modelinin qiymətləndirilməsinə daha əhatəli və etibarlı yanaşma inkişaf etdirməyə təşviq edilir.

Son bir araşdırmada GPT-4nin Uniforma Vəkillər Kollegiyasının İmtahanındakı çıxışı (EBU), düzgünlüyünə şübhələr yaranıb OpenAImodelin müvəffəqiyyət nisbəti ilə bağlı iddiaları. İlkin iddianın əksinə olaraq GPT-4 fərdlərin 90%-ni üstələyir, tapıntılar AI modelinin təxmin edilən və faktiki performansı arasında əhəmiyyətli uyğunsuzluq olduğunu göstərir. Bu açıqlama şəffaf qiymətləndirmə prosedurlarının və bu cür iddiaların təsdiqi üçün əlçatan məlumatların vacibliyini vurğulayır.

GPT-4ABŞ Vəkillər Kollegiyasının İmtahanındakı Performansı İddiaları ilə ziddiyyət təşkil edir
@Midjourney

İmtahan həqiqi imkanlarını müəyyən etmək üçün müxtəlif amillərə diqqət yetirmişdir GPT-4. İlk olaraq, analiz İllinoys ştatında keçirilən fevral imtahanları bunu ortaya qoydu GPT-4'nin ballarına yaxınlaşdı 90 faiz. Bununla belə, bu ballara daha əvvəl iyul imtahanından kəsilən və beləliklə, ümumi orta göstəricidən aşağı bal toplayan təkrarənlərin böyük təsiri olduğu müşahidə edilmişdir.

Üstəlik, iyul imtahanının nəticələri də ziddiyyət təşkil edib OpenAI'nin iddiaları bunu ortaya qoyur GPT-4 yalnız olardı Daha üstündür İnsanların 68%-i və esselərin 48%-i. GPT-4Müxtəlif dövrlərdə bir neçə testdən əldə edilən rəsmi məlumatlar nəzərə alındıqda ilk dəfə imtahan verənlərə qarşı performansı (təkrar imtahanlar istisna olmaqla) 63-cü faiz səviyyəsində qiymətləndirilmiş, esselər isə 41-ci faizdə xeyli aşağı olmuşdur.

İmtahandan uğurla keçənlərin, o cümlədən lisenziyalı şəxslərin və lisenziya gözləyənlərin fəaliyyətinin yoxlanılması əlavə perspektiv əldə edilib. Bu mövzuda, GPT-4nin ümumi performansı 48-ci faizdə, esselər isə 15-ci faizdə daha da pisləşdi.

Bu tapıntılar narahatlıq doğursa da, nəzərdən keçirmə prosesində insan səhvi ehtimalını nəzərə almaq çox vacibdir. Məqalənin müəllifi tədqiqatçıların qiymətləndirmək üçün istifadə etdiyi nümunənin başa düşülməsinin vacibliyini vurğulayır. GPT-4-nin performansı. Rəsmi məlumatların, xüsusən də ümumiləşdirilmiş formada olmaması, faizlərin ədalətli müqayisəsini və qiymətləndirilməsini çətinləşdirir. Bütün maraqlı tərəflər tərəfindən qiymətləndirilə bilən aydın və əlçatan qiymətləndirmə üsullarının yaradılması çox vacibdir.

Bu narahatlıqlara cavab olaraq, OpenAI uyğunsuzluqları aradan qaldırmağa çağırılır və əlavə məlumat verir qiymətləndirmə prosesinə daxil edilir. Şəffaflıq və açıqlıq inam qazanmaq və AI modellərinin hüquq kimi yüksək riskli sahələrdə etibarlılığını təmin etmək üçün vacibdir.

Qeyd etmək lazımdır ki, məqalədə əldə olunan xüsusi baldan bəhs edilmir GPT-4298 olduğu bildirilir. Bu balın əhəmiyyətini qiymətləndirmək üçün istifadə olunan qiymətləndirmə sisteminin kontekstdə başa düşülməsi tələb olunur. Necə ki, məktəbdən evə B ilə gələn uşaq ya şənliyə, ya da məyusluğa səbəb ola bilər. GPT-4's balı istifadə edilən miqyasdan asılıdır.

Qiymətləndirilməsi GPT-4vəkillik imtahanındakı performansı ciddi narahatlıq doğurur doğruluğu haqqında OpenAIilkin iddialar. Təxmini və faktiki performans arasındakı boşluq aydın qiymətləndirmə sistemlərinin və asanlıqla əldə edilə bilən məlumatların vacibliyini vurğulayır. OpenAI bu problemləri həll etməyə və daha əhatəli və inkişaf etdirməyə təşviq edilir AI-yə etibarlı yanaşma modelin qiymətləndirilməsi.

AI haqqında daha çox oxuyun:

Məsuliyyətdən imtina

uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.

Müəllif haqqında

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

Ətraflı məqalələr
Damir Yalalov
Damir Yalalov

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi. 

Hot Stories
Bülletenimizə Qoşulun.
Son Xəbərlər

Hökm günü gəldi: ABŞ Məhkəməsi DOJ-nin iddiasını nəzərdən keçirərkən CZ-nin taleyi tarazlıqda qalır

Changpeng Zhao bu gün Sietldəki ABŞ məhkəməsində hökm oxumağa hazırlaşır.

Daha çox məlumat

Samourai Wallet təsisçiləri Darknet sövdələşmələrində 2 milyard dollara kömək etməkdə ittiham olunurlar

Samourai Wallet qurucularının narahatlığı sənaye üçün nəzərəçarpacaq bir uğursuzluğu təmsil edir və davamlı ...

Daha çox məlumat
İnnovativ Texniki İcmamıza Qoşulun
Daha çox oxu
Daha çox oxu
BNB Chain İkinci Mövsümünü Açıqladı Airdrop Alyans Proqramı, İcma Mükafatları üçün Yeddi Yeni Layihə ilə Tərəfdaşlar
Markets Xəbər Hesabatı Texnologiya
BNB Chain İkinci Mövsümünü Açıqladı Airdrop Alyans Proqramı, İcma Mükafatları üçün Yeddi Yeni Layihə ilə Tərəfdaşlar
April 30, 2024
dWallet Şəbəkəsi Monad-ı Yerli Çox Zəncirli ilə Təkmilləşdirmək üçün Birləşdirir DeFi İmkanları
Biznes Xəbər Hesabatı Texnologiya
dWallet Şəbəkəsi Monad-ı Yerli Çox Zəncirli ilə Təkmilləşdirmək üçün Birləşdirir DeFi İmkanları
April 30, 2024
Animoca Brendləri Darewise ilə birlikdə Bitcoin aləminə genişlənən Opal Bitcoin Layihəsini işə salır
Biznes Xəbər Hesabatı Texnologiya
Animoca Brendləri Darewise ilə birlikdə Bitcoin aləminə genişlənən Opal Bitcoin Layihəsini işə salır
April 30, 2024
HashKey Qrupu Bosera HashKey Bitcoin ETF üçün Karbon neytrallığına çatmaq üçün GreenBTC.Club ilə qüvvələri birləşdirir
Biznes Xəbər Hesabatı Texnologiya
HashKey Qrupu Bosera HashKey Bitcoin ETF üçün Karbon neytrallığına çatmaq üçün GreenBTC.Club ilə qüvvələri birləşdirir
April 30, 2024
CRYPTOMERIA LABS PTE. LTD.