Uudiste reportaaž SMW Tehnoloogia
Võib 30 2023

GPT-4USA advokatuurieksami tulemused on vastuolus tema väidetega

Põgusalt

Uurimine GPT-4Uniform Bar Exami tulemused näitasid lahknevusi hinnangulise ja tegeliku jõudluse vahel, rõhutades läbipaistvate hindamisprotseduuride ja juurdepääsetavate andmete tähtsust.

OpenAI julgustatakse tegelema lahknevustega ning töötama välja kaasavam ja usaldusväärsem lähenemine tehisintellekti mudeli hindamisele, et saavutada usaldust ja tagada usaldusväärsus.

Hiljutises uuringus GPT-4esinemine Uniform Bar eksamil (EBU) täpsuses on tekkinud kahtlusi OpenAIväiteid mudeli edukuse kohta. Vastupidiselt esialgsele väitele, et GPT-4 ületab 90% üksikisikutest, näitavad leiud märkimisväärset lahknevust tehisintellekti mudeli hinnangulise ja tegeliku jõudluse vahel. See ilmutus rõhutab läbipaistvate hindamismenetluste ja juurdepääsetavate andmete tähtsust selliste väidete kinnitamiseks.

GPT-4USA advokatuurieksami tulemused on vastuolus tema väidetega
@Midjourney

Uurimine keskendus erinevatele teguritele, et teha kindlaks nende tegelikud võimalused GPT-4. Esiteks, analüüs veebruari eksamitest Illinoisis selgus GPT-4skoorid lähenesid 90. protsentiil. Siiski täheldati, et neid hindeid mõjutasid tugevalt kordussooritajad, kes olid varem juuli eksamil läbi kukkunud ja seega saavutanud üldisest keskmisest madalama tulemuse.

Veelgi enam, juuli eksami tulemused olid vastuolulised OpenAIväiteid, paljastades selle GPT-4 oleks ainult Ületab 68% inimestest ja 48% esseedest. GPT-4Esimest korda sooritajatega võrreldes hinnati (välja arvatud kordussooritused) 63. protsentiili juures, kui võeti arvesse mitmete erinevatel perioodidel tehtud testide ametlikke andmeid, kusjuures esseed said 41. protsentiili juures tunduvalt madalamad tulemused.

Täiendava vaatenurga saadi eksami sooritanute, sh tegevusloaga isikute ja litsentsi ootavate isikute soorituse uurimine. Sellega seoses GPT-4Üldine jõudlus oli 48. protsentiilil, esseedel läks veelgi halvemini 15. protsentiili juures.

Kuigi need leiud on murettekitavad, on ülioluline kaaluda läbivaatamisprotsessis inimliku eksimise võimalust. Artikli autor rõhutab, kui oluline on mõista uurijate poolt hindamiseks kasutatud valimit GPT-4esitus. Ametlike andmete puudumine, eriti agregeeritud kujul, muudab protsentiilide õiglase võrdlemise ja hindamise keeruliseks. Väga oluline on luua selged ja juurdepääsetavad hindamismeetodid, mida saavad hinnata kõik sidusrühmad.

Vastuseks nendele muredele OpenAI palutakse tungivalt lahknevused kõrvaldada ja pakkuda täiendavaid teadmisi hindamisprotsessi. Läbipaistvus ja avatus on olulised usalduse võitmiseks ja tehisintellekti mudelite usaldusväärsuse tagamiseks sellistes kõrge panusega valdkondades nagu õigus.

Tuleb märkida, et artiklis ei käsitleta konkreetset tulemust, mis on saavutatud GPT-4, mis väidetavalt on 298. Selle skoori olulisuse hindamine eeldab kasutatava hindamissüsteemi konteksti mõistmist. Nii nagu laps, kes tuleb koolist koju B-ga, võib olla kas tähistamise või pettumuse põhjus, tõlgendab see GPT-4skoor sõltub kasutatavast skaalast.

Hinnang GPT-4esinemine advokatuuri eksamil tekitab tõsist muret tõepärasuse kohta OpenAIesialgsed väited. Lõhe hinnangulise ja tegeliku jõudluse vahel rõhutab selgete hindamissüsteemide ja hõlpsasti juurdepääsetavate andmete tähtsust. OpenAI julgustatakse neid väljakutseid käsitlema ning arendama kaasavamat ja usaldusväärne lähenemine AI-le mudeli hindamine.

Loe AI kohta lähemalt:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Veel artikleid
Damir Jalalov
Damir Jalalov

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Karistuspäev saabub: CZ saatus on tasakaalus, kuna USA kohus võtab DOJ palvet arvesse

Changpeng Zhao ootab täna ees kohtuotsus USA Seattle'i kohtus.

Rohkem teada

Samourai rahakoti asutajaid süüdistatakse Darkneti tehingute 2 miljardi dollari suuruse hõlbustamises

Samourai Walleti asutajate kartus on tööstuse jaoks märkimisväärne tagasilöök, mis rõhutab püsivat ...

Rohkem teada
Liituge meie uuendusliku tehnikakogukonnaga
Loe rohkem
Loe edasi
Chainlink ja kiire lisamine teevad koostööd CCIP-põhise plokiahelaadapteri väljatöötamiseks
Äri Uudiste reportaaž Tehnoloogia
Chainlink ja kiire lisamine teevad koostööd CCIP-põhise plokiahelaadapteri väljatöötamiseks
Võib 1 2024
BitSmiley toob turule Alphanet V1, debüüdi Bitcoini kihi 2 võrgu bitikihis
Uudiste reportaaž Tehnoloogia
BitSmiley toob turule Alphanet V1, debüüdi Bitcoini kihi 2 võrgu bitikihis
Võib 1 2024
2024. aasta aprillis on häkkide ja pettuste osas ajalooliselt madal, CertiK teatab märtsist 141% langusest
turud TURVALISUS Wiki Lood ja ülevaated Tehnoloogia
2024. aasta aprillis on häkkide ja pettuste osas ajalooliselt madal, CertiK teatab märtsist 141% langusest
Võib 1 2024
Bitcoini hind langeb enne Föderaalreservi intressimäära otsuse väljakuulutamist, analüütikud hoiatavad potentsiaalse turumuutuse eest
turud Uudiste reportaaž Tehnoloogia
Bitcoini hind langeb enne Föderaalreservi intressimäära otsuse väljakuulutamist, analüütikud hoiatavad potentsiaalse turumuutuse eest
Võib 1 2024
CRYPTOMERIA LABS PTE. LTD.