GPT-4Výkon na americkej advokátskej skúške je v rozpore s jej tvrdeniami
Stručne
Preskúmanie GPT-4Výkon na Uniform Bar Exam odhalil nesúlad medzi odhadovaným a skutočným výkonom, pričom zdôraznil dôležitosť transparentných hodnotiacich postupov a dostupných údajov.
OpenAI sa vyzýva, aby riešili nezrovnalosti a vyvinuli inkluzívnejší a spoľahlivejší prístup k hodnoteniu modelov AI s cieľom získať dôveru a zabezpečiť dôveryhodnosť.
Pri nedávnom skúmaní GPT-4výkon na skúške v uniforme advokáta (EBU), vznikli pochybnosti o presnosti OpenAItvrdenia týkajúce sa miery úspešnosti modelu. Na rozdiel od pôvodného tvrdenia, že GPT-4 prevyšuje 90 % jednotlivcov, zistenia naznačujú významný nesúlad medzi odhadovaným a skutočným výkonom modelu AI. Toto odhalenie zdôrazňuje dôležitosť transparentných hodnotiacich postupov a dostupných údajov na potvrdenie takýchto tvrdení.
Skúška sa zamerala na rôzne faktory na zistenie skutočných schopností GPT-4. Po prvé, analýza februárových skúšok v Illinois to odhalili GPT-4Skóre 's sa priblížilo k 90. percentil. Zistilo sa však, že tieto skóre boli výrazne ovplyvnené opakovanými účastníkmi, ktorí predtým zlyhali na júlovej skúške, a teda dosiahli pod celkovým priemerom.
Okrem toho boli výsledky júlovej skúšky v rozpore OpenAI' s tvrdeniami, ktoré to odhaľujú GPT-4 iba by prekonávajú 68 % ľudí a 48 % esejí. GPT-4Výkon v porovnaní s prvými účastníkmi (okrem opakovaných testov) bol hodnotený na 63. percentile, keď sa brali do úvahy oficiálne údaje z niekoľkých testov v rôznych obdobiach, pričom eseje dosahovali výrazne nižšie skóre na 41. percentile.
Ďalší pohľad bol získaný skúmaním výkonu tých, ktorí skúšku zložili, vrátane licencovaných jednotlivcov a tých, ktorí čakajú na licenciu. v tejto súvislosti GPT-4Celkový výkon bol hodnotený na 48. percentile, pričom eseje dopadli ešte horšie na 15. percentile.
Aj keď sú tieto zistenia znepokojujúce, je dôležité zvážiť možnosť ľudskej chyby v procese preskúmania. Autor článku zdôrazňuje dôležitosť pochopenia vzorky, ktorú výskumníci použili na vyhodnotenie GPT-4výkon. Nedostatok oficiálnych údajov, najmä v agregovanej forme, sťažuje spravodlivé porovnanie a vyhodnotenie percentilov. Rozhodujúce je vytvorenie jasných a dostupných techník hodnotenia, ktoré môžu hodnotiť všetky zainteresované strany.
V reakcii na tieto obavy OpenAI sa vyzýva, aby odstránil nezrovnalosti a poskytnúť ďalšie poznatky do procesu hodnotenia. Transparentnosť a otvorenosť sú nevyhnutné na získanie dôvery a zabezpečenie dôveryhodnosti modelov AI v dôležitých oblastiach, ako je právo.
Je potrebné poznamenať, že článok nepojednáva o konkrétnom dosiahnutom skóre GPT-4, čo je údajne 298. Hodnotenie významnosti tohto skóre si vyžaduje kontextové pochopenie použitého systému známkovania. Rovnako ako dieťa prichádzajúce zo školy s B môže byť dôvodom na oslavu alebo sklamanie, interpretácia tohto GPT-4Skóre závisí od použitej stupnice.
Posúdenie GPT-4výkon na advokátskej skúške vyvoláva vážne obavy o pravdivosti OpenAIpočiatočné tvrdenia. Rozdiel medzi odhadovaným a skutočným výkonom zdôrazňuje dôležitosť jasných systémov hodnotenia a ľahko dostupných údajov. OpenAI sa vyzýva, aby riešil tieto výzvy a rozvíjal inkluzívnejší a spoľahlivý prístup k AI hodnotenie modelu.
Prečítajte si viac o AI:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.