Ziņojums SMW Tehnoloģija
30. gada 2023. maijs

GPT-4ASV advokāta eksāmena rezultāti ir pretrunā ar tās apgalvojumiem

Īsumā

Pārbaude GPT-4's sniegums vienotajā advokātu eksāmenā atklāja neatbilstību starp aptuveno un faktisko sniegumu, uzsverot pārredzamu novērtēšanas procedūru un pieejamu datu nozīmi.

OpenAI tiek mudināts novērst neatbilstības un izstrādāt iekļaujošāku un uzticamāku pieeju AI modeļa novērtēšanai, lai iegūtu uzticību un nodrošinātu uzticamību.

Nesenā pārbaudē par GPT-4sniegums vienotā advokāta eksāmenā (EBU), radušās šaubas par precizitāti OpenAI's apgalvojumi par modeļa panākumu līmeni. Pretēji sākotnējam apgalvojumam, ka GPT-4 pārspēj 90% indivīdu, atklājumi liecina par būtisku neatbilstību starp aplēsto un faktisko AI modeļa veiktspēju. Šī atklāsme uzsver pārredzamu novērtēšanas procedūru un pieejamu datu nozīmi šādu apgalvojumu apstiprināšanai.

GPT-4ASV advokāta eksāmena rezultāti ir pretrunā ar tās apgalvojumiem
@Midjourney

Pārbaudē galvenā uzmanība tika pievērsta dažādiem faktoriem, lai noskaidrotu patiesās spējas GPT-4. Pirmkārt, analīze februāra eksāmenos Ilinoisā tas atklājās GPT-4's rezultāti tuvojās 90. procentile. Tomēr tika novērots, ka šos punktus ļoti ietekmēja atkārtoti kārtotāji, kuri iepriekš nebija izturējuši jūlija eksāmenu un tādējādi ieguvuši zemāku punktu skaitu par vidējo.

Turklāt jūlija eksāmena rezultāti bija pretrunīgi OpenAI's apgalvojumus, atklājot to GPT-4 būtu tikai Pārspēj 68% cilvēku un 48% eseju. GPT-4's sniegums pret pirmo reizi kārtotājiem (izņemot atkārtotās pārbaudes) tika novērtēts pie 63. procentiles, kad tika ņemti vērā oficiālie dati no vairākiem testiem dažādos laika posmos, un eseju vērtējums bija ievērojami zemāks 41. procentīlē.

Papildu perspektīva tika iegūta, pārbaudot eksāmenu nokārtojušo, tostarp licencētu personu un licencēšanas gaidošo personu sniegumu. Šajā sakarā, GPT-4Kopējais sniegums tika novērtēts 48. procentiles līmenī, bet esejām – 15. procentile.

Lai gan šie atklājumi ir satraucoši, ir ļoti svarīgi pārskatīšanas procesā apsvērt cilvēka kļūdu iespējamību. Raksta autore uzsver, cik svarīgi ir izprast paraugu, ko pētnieki izmanto vērtēšanai GPT-4sniegumu. Oficiālo datu trūkums, īpaši apkopotā veidā, apgrūtina procentiļu godīgu salīdzināšanu un novērtēšanu. Ir ļoti svarīgi izveidot skaidrus un pieejamus novērtēšanas paņēmienus, kurus var novērtēt visas ieinteresētās personas.

Reaģējot uz šīm bažām, OpenAI tiek mudināts novērst neatbilstības un sniegt papildu ieskatus novērtēšanas procesā. Pārredzamība un atklātība ir būtiska, lai iegūtu uzticību un nodrošinātu AI modeļu uzticamību tādās augstās jomās kā tiesību akti.

Jāatzīmē, ka rakstā nav apskatīts konkrētais rezultāts, ko sasniedzis GPT-4, kas tiek ziņots par 298. Lai novērtētu šī rezultāta nozīmīgumu, ir nepieciešama kontekstuāla izpratne par izmantoto vērtēšanas sistēmu. Tāpat kā bērns, kas nāk mājās no skolas ar B var būt iemesls svētkiem vai vilšanās, interpretācija GPT-4's rezultāts ir atkarīgs no izmantotās skalas.

Novērtējums GPT-4veikums advokāta eksāmenā rada nopietnas bažas par patiesumu OpenAIsākotnējie apgalvojumi. Plaisa starp aplēsto un faktisko veiktspēju uzsver skaidru novērtēšanas sistēmu un viegli pieejamu datu nozīmi. OpenAI tiek mudināts risināt šīs problēmas un izstrādāt iekļaujošāku un uzticama pieeja AI modeļa novērtējums.

Lasiet vairāk par AI:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Vairāk rakstus
Damirs Jalalovs
Damirs Jalalovs

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Hot Stories
Pievienojieties mūsu informatīvajam izdevumam.
Jaunākās ziņas

PlayFi integrē MultiversX Plug-and-Play Web3 Spēļu pieredze

by Alise Deividsone
01. gada 2024. maijs

Pienāk notiesāšanas diena: CZ liktenis ir līdzsvarā, jo ASV tiesa izskata DOJ lūgumu

Šodien ASV tiesā Sietlā Čanpens Džao ir gatavs notiesāt.

Uzziniet vairāk

Samourai Wallet dibinātāji tiek apsūdzēti par 2 miljardu dolāru atvieglošanu Darknet darījumos

Samourai Wallet dibinātāju bažas ir ievērojams neveiksme nozarei, uzsverot neatlaidīgo ...

Uzziniet vairāk
Pievienojieties mūsu novatoriskajai tehnoloģiju kopienai
Lasīt vairāk
Vairāk
Ķēdes saite un ātra pievienošana sadarbojas, lai izstrādātu uz CCIP balstītu blokķēdes adapteri
bizness Ziņojums Tehnoloģija
Ķēdes saite un ātra pievienošana sadarbojas, lai izstrādātu uz CCIP balstītu blokķēdes adapteri
1. gada 2024. maijs
BitSmiley izlaiž Alphanet V1, debitē Bitcoin Layer 2 tīkla bitu slānī
Ziņojums Tehnoloģija
BitSmiley izlaiž Alphanet V1, debitē Bitcoin Layer 2 tīkla bitu slānī
1. gada 2024. maijs
2024. gada aprīlī uzlaušanas un krāpniecības gadījumu skaits ir vēsturiski zems, CertiK ziņo par 141% samazinājumu, salīdzinot ar martu
Markets Drošība Wiki Stāsti un atsauksmes Tehnoloģija
2024. gada aprīlī uzlaušanas un krāpniecības gadījumu skaits ir vēsturiski zems, CertiK ziņo par 141% samazinājumu, salīdzinot ar martu
1. gada 2024. maijs
Bitcoin cena pazeminās pirms Federālo rezervju sistēmas procentu likmju lēmuma paziņojuma, analītiķi brīdina par iespējamām tirgus izmaiņām
Markets Ziņojums Tehnoloģija
Bitcoin cena pazeminās pirms Federālo rezervju sistēmas procentu likmju lēmuma paziņojuma, analītiķi brīdina par iespējamām tirgus izmaiņām
1. gada 2024. maijs
CRYPTOMERIA LABS PTE. LTD.