Novinky SMW Technika
30

GPT-4Výkon na americké advokátní zkoušce je v rozporu s jeho tvrzeními

Stručně

Zkoumání GPT-4výkon na Uniform Bar Exam odhalil nesoulad mezi odhadovaným a skutečným výkonem a zdůraznil důležitost transparentních hodnotících postupů a dostupných údajů.

OpenAI vyzýváme k tomu, aby se zabývala nesrovnalostmi a vyvinula inkluzívnější a spolehlivější přístup k hodnocení modelů umělé inteligence s cílem získat důvěru a zajistit důvěryhodnost.

V nedávném zkoumání GPT-4výkon na Uniform Bar Exam (EBU), vznikly pochybnosti o přesnosti OpenAItvrzení ohledně úspěšnosti modelu. Oproti původnímu tvrzení, že GPT-4 překonává 90 % jednotlivců, zjištění naznačují významný nesoulad mezi odhadovaným a skutečným výkonem modelu AI. Toto odhalení zdůrazňuje důležitost transparentních hodnotících postupů a dostupných údajů pro validaci takových tvrzení.

GPT-4Výkon na americké advokátní zkoušce je v rozporu s jeho tvrzeními
@Midjourney

Zkouška se zaměřila na různé faktory, aby se zjistily skutečné schopnosti GPT-4. Za prvé, analýza to odhalily únorové zkoušky v Illinois GPT-4Skóre se přiblížilo k 90. percentil. Bylo však pozorováno, že tato skóre byla silně ovlivněna osobami, které opakují zkoušku, kteří předtím neuspěli v červencové zkoušce, a dosáhli tak pod celkovým průměrem.

Navíc výsledky červencové zkoušky byly v rozporu OpenAI's tvrzení, odhalující to GPT-4 jen by Vyšší výkon 68 % lidí a 48 % esejí. GPT-4Výkonnost proti těm, kteří testovali poprvé (s výjimkou opakovaných zkoušek), byla hodnocena na 63. percentilu, když byly zváženy oficiální údaje z několika testů v různých obdobích, přičemž eseje měly výrazně nižší skóre na 41. percentilu.

Další pohled byl získán zkoumáním výkonu těch, kteří zkoušku složili, včetně licencovaných jednotlivců a těch, kteří čekají na udělení licence. V tomto kontextu, GPT-4Celkový výkon byl hodnocen na 48. percentilu, přičemž eseje dopadly ještě hůře na 15. percentilu.

I když jsou tato zjištění znepokojivá, je důležité vzít v úvahu možnost lidské chyby v procesu kontroly. Autor článku zdůrazňuje důležitost porozumění vzorku použitému výzkumníky k hodnocení GPT-4výkon. Nedostatek oficiálních údajů, zejména v agregované podobě, ztěžuje spravedlivé srovnání a vyhodnocení percentilů. Zavedení jasných a dostupných technik hodnocení, které mohou hodnotit všechny zúčastněné strany, je zásadní.

V reakci na tyto obavy OpenAI je naléhavě žádáno, aby se zabývalo nesrovnalostmi a poskytnout další poznatky do procesu hodnocení. Transparentnost a otevřenost jsou zásadní pro získání důvěry a zajištění důvěryhodnosti modelů umělé inteligence v důležitých oblastech, jako je právo.

Je třeba poznamenat, že článek nepojednává o konkrétním dosaženém skóre GPT-4, což je uváděno 298. Hodnocení významnosti tohoto skóre vyžaduje kontextové pochopení použitého systému hodnocení. Stejně jako dítě přicházející ze školy s B může být důvodem k oslavě nebo zklamání, výklad toho GPT-4Skóre závisí na použité škále.

Posouzení GPT-4výkon u advokátní zkoušky vyvolává vážné obavy o pravdivosti OpenAIpočáteční tvrzení. Rozdíl mezi odhadovaným a skutečným výkonem zdůrazňuje důležitost jasných systémů hodnocení a snadno dostupných dat. OpenAI je vybízen k tomu, aby se těmito výzvami zabýval a vytvořil více inkluzivní a spolehlivý přístup k AI hodnocení modelu.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více

Zakladatelé peněženky Samourai byli obviněni z usnadňování 2 miliard dolarů v obchodech Darknet

Obavy zakladatelů Peněženky Samourai představují pro průmysl významnou překážku, která podtrhuje přetrvávající ...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Chainlink a Rapid Addition spolupracují na vývoji blockchainového adaptéru založeného na CCIP
Business Novinky Technika
Chainlink a Rapid Addition spolupracují na vývoji blockchainového adaptéru založeného na CCIP
1
BitSmiley spouští Alphanet V1, debutuje na bitcoinovém síťovém bitlayeru vrstvy 2
Novinky Technika
BitSmiley spouští Alphanet V1, debutuje na bitcoinovém síťovém bitlayeru vrstvy 2
1
Duben 2024 zaznamenal historicky nejnižší počet hacků a podvodů, CertiK hlásí 141% pokles oproti březnu
Trhy Bezpečnost Wiki Příběhy a recenze Technika
Duben 2024 zaznamenal historicky nejnižší počet hacků a podvodů, CertiK hlásí 141% pokles oproti březnu
1
Cena bitcoinu klesla před oznámením rozhodnutí Federálního rezervního systému o úrokových sazbách, analytici varují před možným posunem na trhu
Trhy Novinky Technika
Cena bitcoinu klesla před oznámením rozhodnutí Federálního rezervního systému o úrokových sazbách, analytici varují před možným posunem na trhu
1
CRYPTOMERIA LABS PTE. LTD.