GPT-4ASV advokāta eksāmena rezultāti ir pretrunā ar tās apgalvojumiem
Īsumā
Pārbaude GPT-4's sniegums vienotajā advokātu eksāmenā atklāja neatbilstību starp aptuveno un faktisko sniegumu, uzsverot pārredzamu novērtēšanas procedūru un pieejamu datu nozīmi.
OpenAI tiek mudināts novērst neatbilstības un izstrādāt iekļaujošāku un uzticamāku pieeju AI modeļa novērtēšanai, lai iegūtu uzticību un nodrošinātu uzticamību.
Nesenā pārbaudē par GPT-4sniegums vienotā advokāta eksāmenā (EBU), radušās šaubas par precizitāti OpenAI's apgalvojumi par modeļa panākumu līmeni. Pretēji sākotnējam apgalvojumam, ka GPT-4 pārspēj 90% indivīdu, atklājumi liecina par būtisku neatbilstību starp aplēsto un faktisko AI modeļa veiktspēju. Šī atklāsme uzsver pārredzamu novērtēšanas procedūru un pieejamu datu nozīmi šādu apgalvojumu apstiprināšanai.
Pārbaudē galvenā uzmanība tika pievērsta dažādiem faktoriem, lai noskaidrotu patiesās spējas GPT-4. Pirmkārt, analīze februāra eksāmenos Ilinoisā tas atklājās GPT-4's rezultāti tuvojās 90. procentile. Tomēr tika novērots, ka šos punktus ļoti ietekmēja atkārtoti kārtotāji, kuri iepriekš nebija izturējuši jūlija eksāmenu un tādējādi ieguvuši zemāku punktu skaitu par vidējo.
Turklāt jūlija eksāmena rezultāti bija pretrunīgi OpenAI's apgalvojumus, atklājot to GPT-4 būtu tikai Pārspēj 68% cilvēku un 48% eseju. GPT-4's sniegums pret pirmo reizi kārtotājiem (izņemot atkārtotās pārbaudes) tika novērtēts pie 63. procentiles, kad tika ņemti vērā oficiālie dati no vairākiem testiem dažādos laika posmos, un eseju vērtējums bija ievērojami zemāks 41. procentīlē.
Papildu perspektīva tika iegūta, pārbaudot eksāmenu nokārtojušo, tostarp licencētu personu un licencēšanas gaidošo personu sniegumu. Šajā sakarā, GPT-4Kopējais sniegums tika novērtēts 48. procentiles līmenī, bet esejām – 15. procentile.
Lai gan šie atklājumi ir satraucoši, ir ļoti svarīgi pārskatīšanas procesā apsvērt cilvēka kļūdu iespējamību. Raksta autore uzsver, cik svarīgi ir izprast paraugu, ko pētnieki izmanto vērtēšanai GPT-4sniegumu. Oficiālo datu trūkums, īpaši apkopotā veidā, apgrūtina procentiļu godīgu salīdzināšanu un novērtēšanu. Ir ļoti svarīgi izveidot skaidrus un pieejamus novērtēšanas paņēmienus, kurus var novērtēt visas ieinteresētās personas.
Reaģējot uz šīm bažām, OpenAI tiek mudināts novērst neatbilstības un sniegt papildu ieskatus novērtēšanas procesā. Pārredzamība un atklātība ir būtiska, lai iegūtu uzticību un nodrošinātu AI modeļu uzticamību tādās augstās jomās kā tiesību akti.
Jāatzīmē, ka rakstā nav apskatīts konkrētais rezultāts, ko sasniedzis GPT-4, kas tiek ziņots par 298. Lai novērtētu šī rezultāta nozīmīgumu, ir nepieciešama kontekstuāla izpratne par izmantoto vērtēšanas sistēmu. Tāpat kā bērns, kas nāk mājās no skolas ar B var būt iemesls svētkiem vai vilšanās, interpretācija GPT-4's rezultāts ir atkarīgs no izmantotās skalas.
Novērtējums GPT-4veikums advokāta eksāmenā rada nopietnas bažas par patiesumu OpenAIsākotnējie apgalvojumi. Plaisa starp aplēsto un faktisko veiktspēju uzsver skaidru novērtēšanas sistēmu un viegli pieejamu datu nozīmi. OpenAI tiek mudināts risināt šīs problēmas un izstrādāt iekļaujošāku un uzticama pieeja AI modeļa novērtējums.
Lasiet vairāk par AI:
Atbildības noraidīšana
Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.
Par Autors
Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.
Vairāk rakstusDamirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.