GPT-4Výkon na americké advokátní zkoušce je v rozporu s jeho tvrzeními
Stručně
Zkoumání GPT-4výkon na Uniform Bar Exam odhalil nesoulad mezi odhadovaným a skutečným výkonem a zdůraznil důležitost transparentních hodnotících postupů a dostupných údajů.
OpenAI vyzýváme k tomu, aby se zabývala nesrovnalostmi a vyvinula inkluzívnější a spolehlivější přístup k hodnocení modelů umělé inteligence s cílem získat důvěru a zajistit důvěryhodnost.
V nedávném zkoumání GPT-4výkon na Uniform Bar Exam (EBU), vznikly pochybnosti o přesnosti OpenAItvrzení ohledně úspěšnosti modelu. Oproti původnímu tvrzení, že GPT-4 překonává 90 % jednotlivců, zjištění naznačují významný nesoulad mezi odhadovaným a skutečným výkonem modelu AI. Toto odhalení zdůrazňuje důležitost transparentních hodnotících postupů a dostupných údajů pro validaci takových tvrzení.
Zkouška se zaměřila na různé faktory, aby se zjistily skutečné schopnosti GPT-4. Za prvé, analýza to odhalily únorové zkoušky v Illinois GPT-4Skóre se přiblížilo k 90. percentil. Bylo však pozorováno, že tato skóre byla silně ovlivněna osobami, které opakují zkoušku, kteří předtím neuspěli v červencové zkoušce, a dosáhli tak pod celkovým průměrem.
Navíc výsledky červencové zkoušky byly v rozporu OpenAI's tvrzení, odhalující to GPT-4 jen by Vyšší výkon 68 % lidí a 48 % esejí. GPT-4Výkonnost proti těm, kteří testovali poprvé (s výjimkou opakovaných zkoušek), byla hodnocena na 63. percentilu, když byly zváženy oficiální údaje z několika testů v různých obdobích, přičemž eseje měly výrazně nižší skóre na 41. percentilu.
Další pohled byl získán zkoumáním výkonu těch, kteří zkoušku složili, včetně licencovaných jednotlivců a těch, kteří čekají na udělení licence. V tomto kontextu, GPT-4Celkový výkon byl hodnocen na 48. percentilu, přičemž eseje dopadly ještě hůře na 15. percentilu.
I když jsou tato zjištění znepokojivá, je důležité vzít v úvahu možnost lidské chyby v procesu kontroly. Autor článku zdůrazňuje důležitost porozumění vzorku použitému výzkumníky k hodnocení GPT-4výkon. Nedostatek oficiálních údajů, zejména v agregované podobě, ztěžuje spravedlivé srovnání a vyhodnocení percentilů. Zavedení jasných a dostupných technik hodnocení, které mohou hodnotit všechny zúčastněné strany, je zásadní.
V reakci na tyto obavy OpenAI je naléhavě žádáno, aby se zabývalo nesrovnalostmi a poskytnout další poznatky do procesu hodnocení. Transparentnost a otevřenost jsou zásadní pro získání důvěry a zajištění důvěryhodnosti modelů umělé inteligence v důležitých oblastech, jako je právo.
Je třeba poznamenat, že článek nepojednává o konkrétním dosaženém skóre GPT-4, což je uváděno 298. Hodnocení významnosti tohoto skóre vyžaduje kontextové pochopení použitého systému hodnocení. Stejně jako dítě přicházející ze školy s B může být důvodem k oslavě nebo zklamání, výklad toho GPT-4Skóre závisí na použité škále.
Posouzení GPT-4výkon u advokátní zkoušky vyvolává vážné obavy o pravdivosti OpenAIpočáteční tvrzení. Rozdíl mezi odhadovaným a skutečným výkonem zdůrazňuje důležitost jasných systémů hodnocení a snadno dostupných dat. OpenAI je vybízen k tomu, aby se těmito výzvami zabýval a vytvořil více inkluzivní a spolehlivý přístup k AI hodnocení modelu.
Přečtěte si více o AI:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.