Buletin de stiri SMW Tehnologia
30 Mai, 2023

GPT-4Performanța lui la examenul Baroului din SUA contrazice pretențiile sale

Pe scurt

Examinarea GPT-4Performanța lui la Examenul Baroului Uniform a relevat o discrepanță între performanța estimată și cea reală, subliniind importanța procedurilor de evaluare transparente și a datelor accesibile.

OpenAI este încurajat să abordeze discrepanțele și să dezvolte o abordare mai incluzivă și mai fiabilă a evaluării modelelor de IA pentru a câștiga încredere și a asigura credibilitatea.

Într-o examinare recentă a GPT-4performanța lui la examenul Baroului uniform (EBU), au apărut îndoieli cu privire la acuratețea OpenAIafirmațiile lui cu privire la rata de succes a modelului. Contrar afirmaţiei iniţiale că GPT-4 depășește 90% dintre indivizi, constatările sugerează o discrepanță semnificativă între performanța estimată și cea reală a modelului AI. Această revelație subliniază importanța procedurilor de evaluare transparente și a datelor accesibile pentru validarea unor astfel de afirmații.

GPT-4Performanța lui la examenul Baroului din SUA contrazice pretențiile sale
@Midjourney

Examinarea sa concentrat pe diverși factori pentru a stabili adevăratele capacități ale GPT-4. În primul rând, analiză a examenelor din februarie din Illinois a relevat că GPT-4scorurile lui s-au apropiat de 90 percentila. Cu toate acestea, s-a observat că aceste scoruri au fost puternic influențate de cei care au picat anterior examenul din iulie și au obținut astfel nota sub media generală.

În plus, rezultatele examenului din iulie au fost contrazise OpenAIafirmațiile lui, dezvăluind că GPT-4 ar face numai outperform 68% dintre oameni și 48% dintre eseuri. GPT-4Performanța lui față de cei care iau pentru prima dată (excluzând reluările) a fost evaluată la percentila 63, când au fost luate în considerare datele oficiale de la mai multe teste în perioade diferite, eseurile obținând scoruri considerabil mai mici la percentila 41.

O perspectivă suplimentară a fost obținută prin examinarea performanței celor care au promovat examenul, inclusiv a persoanelor autorizate și a celor care așteaptă licența. În această privință, GPT-4Performanța generală a lui a fost clasată la a 48-a percentila, iar eseurile s-au descurcat și mai rău la a 15-a percentila.

Deși aceste constatări sunt îngrijorătoare, este esențial să se ia în considerare posibilitatea unei greșeli umane în procesul de revizuire. Autorul articolului subliniază importanța înțelegerii eșantionului utilizat de cercetători pentru a evalua GPT-4performanța lui. Lipsa datelor oficiale, în special în formă agregată, face dificilă compararea corectă și evaluarea percentilelor. Este esențială stabilirea unor tehnici de evaluare clare și accesibile care să poată fi evaluate de către toate părțile interesate.

Ca răspuns la aceste preocupări, OpenAI este îndemnat să abordeze discrepanţele şi oferi mai multe perspective în procesul de evaluare. Transparența și deschiderea sunt esențiale pentru câștigarea încrederii și asigurarea credibilității modelelor de inteligență artificială în domenii cu mize mari, cum ar fi dreptul.

De remarcat faptul că articolul nu discută punctajul specific realizat de GPT-4, care este raportat a fi 298. Evaluarea semnificației acestui scor necesită o înțelegere contextuală a sistemului de notare utilizat. Așa cum un copil care vine acasă de la școală cu un B poate fi fie un motiv de sărbătoare, fie de dezamăgire, interpretarea GPT-4scorul lui depinde de scara folosită.

Evaluarea GPT-4performanța lui la examenul de barou ridică serioase îngrijorări despre veridicitatea OpenAIafirmațiile inițiale ale lui. Diferența dintre performanța estimată și cea reală subliniază importanța sistemelor de evaluare clare și a datelor ușor accesibile. OpenAI este încurajat să abordeze aceste provocări și să dezvolte un sistem mai incluziv și abordare fiabilă a AI evaluarea modelului.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe

Fondatorii portofelului Samourai sunt acuzați că au facilitat 2 miliarde de dolari în oferte Darknet

Reținerea fondatorilor Samourai Wallet reprezintă un regres notabil pentru industrie, subliniind persistenta...

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Chainlink și Rapid Addition colaborează pentru a dezvolta un adaptor Blockchain bazat pe CCIP
Afaceri Buletin de stiri Tehnologia
Chainlink și Rapid Addition colaborează pentru a dezvolta un adaptor Blockchain bazat pe CCIP
1 Mai, 2024
BitSmiley lansează Alphanet V1, debutează pe Bitcoin Layer 2 Network Bitlayer
Buletin de stiri Tehnologia
BitSmiley lansează Alphanet V1, debutează pe Bitcoin Layer 2 Network Bitlayer
1 Mai, 2024
Aprilie 2024 înregistrează un nivel scăzut istoric al hackurilor și înșelătoriilor, CertiK raportează o scădere cu 141% față de martie
pieţe Securitate Wiki Povești și recenzii Tehnologia
Aprilie 2024 înregistrează un nivel scăzut istoric al hackurilor și înșelătoriilor, CertiK raportează o scădere cu 141% față de martie
1 Mai, 2024
Prețul Bitcoin scade înaintea anunțului deciziei Rezervei Federale privind rata dobânzii, analiștii avertizează asupra unei potențiale schimbări ale pieței
pieţe Buletin de stiri Tehnologia
Prețul Bitcoin scade înaintea anunțului deciziei Rezervei Federale privind rata dobânzii, analiștii avertizează asupra unei potențiale schimbări ale pieței
1 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.