GPT-4USA advokatuurieksami tulemused on vastuolus tema väidetega
Põgusalt
Uurimine GPT-4Uniform Bar Exami tulemused näitasid lahknevusi hinnangulise ja tegeliku jõudluse vahel, rõhutades läbipaistvate hindamisprotseduuride ja juurdepääsetavate andmete tähtsust.
OpenAI julgustatakse tegelema lahknevustega ning töötama välja kaasavam ja usaldusväärsem lähenemine tehisintellekti mudeli hindamisele, et saavutada usaldust ja tagada usaldusväärsus.
Hiljutises uuringus GPT-4esinemine Uniform Bar eksamil (EBU) täpsuses on tekkinud kahtlusi OpenAIväiteid mudeli edukuse kohta. Vastupidiselt esialgsele väitele, et GPT-4 ületab 90% üksikisikutest, näitavad leiud märkimisväärset lahknevust tehisintellekti mudeli hinnangulise ja tegeliku jõudluse vahel. See ilmutus rõhutab läbipaistvate hindamismenetluste ja juurdepääsetavate andmete tähtsust selliste väidete kinnitamiseks.
Uurimine keskendus erinevatele teguritele, et teha kindlaks nende tegelikud võimalused GPT-4. Esiteks, analüüs veebruari eksamitest Illinoisis selgus GPT-4skoorid lähenesid 90. protsentiil. Siiski täheldati, et neid hindeid mõjutasid tugevalt kordussooritajad, kes olid varem juuli eksamil läbi kukkunud ja seega saavutanud üldisest keskmisest madalama tulemuse.
Veelgi enam, juuli eksami tulemused olid vastuolulised OpenAIväiteid, paljastades selle GPT-4 oleks ainult Ületab 68% inimestest ja 48% esseedest. GPT-4Esimest korda sooritajatega võrreldes hinnati (välja arvatud kordussooritused) 63. protsentiili juures, kui võeti arvesse mitmete erinevatel perioodidel tehtud testide ametlikke andmeid, kusjuures esseed said 41. protsentiili juures tunduvalt madalamad tulemused.
Täiendava vaatenurga saadi eksami sooritanute, sh tegevusloaga isikute ja litsentsi ootavate isikute soorituse uurimine. Sellega seoses GPT-4Üldine jõudlus oli 48. protsentiilil, esseedel läks veelgi halvemini 15. protsentiili juures.
Kuigi need leiud on murettekitavad, on ülioluline kaaluda läbivaatamisprotsessis inimliku eksimise võimalust. Artikli autor rõhutab, kui oluline on mõista uurijate poolt hindamiseks kasutatud valimit GPT-4esitus. Ametlike andmete puudumine, eriti agregeeritud kujul, muudab protsentiilide õiglase võrdlemise ja hindamise keeruliseks. Väga oluline on luua selged ja juurdepääsetavad hindamismeetodid, mida saavad hinnata kõik sidusrühmad.
Vastuseks nendele muredele OpenAI palutakse tungivalt lahknevused kõrvaldada ja pakkuda täiendavaid teadmisi hindamisprotsessi. Läbipaistvus ja avatus on olulised usalduse võitmiseks ja tehisintellekti mudelite usaldusväärsuse tagamiseks sellistes kõrge panusega valdkondades nagu õigus.
Tuleb märkida, et artiklis ei käsitleta konkreetset tulemust, mis on saavutatud GPT-4, mis väidetavalt on 298. Selle skoori olulisuse hindamine eeldab kasutatava hindamissüsteemi konteksti mõistmist. Nii nagu laps, kes tuleb koolist koju B-ga, võib olla kas tähistamise või pettumuse põhjus, tõlgendab see GPT-4skoor sõltub kasutatavast skaalast.
Hinnang GPT-4esinemine advokatuuri eksamil tekitab tõsist muret tõepärasuse kohta OpenAIesialgsed väited. Lõhe hinnangulise ja tegeliku jõudluse vahel rõhutab selgete hindamissüsteemide ja hõlpsasti juurdepääsetavate andmete tähtsust. OpenAI julgustatakse neid väljakutseid käsitlema ning arendama kaasavamat ja usaldusväärne lähenemine AI-le mudeli hindamine.
Loe AI kohta lähemalt:
Kaebused
Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.
Umbes Autor
Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.
Veel artikleidDamir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.