Novinová správa SMW Technológia
Môže 30, 2023

GPT-4Výkon na americkej advokátskej skúške je v rozpore s jej tvrdeniami

Stručne

Preskúmanie GPT-4Výkon na Uniform Bar Exam odhalil nesúlad medzi odhadovaným a skutočným výkonom, pričom zdôraznil dôležitosť transparentných hodnotiacich postupov a dostupných údajov.

OpenAI sa vyzýva, aby riešili nezrovnalosti a vyvinuli inkluzívnejší a spoľahlivejší prístup k hodnoteniu modelov AI s cieľom získať dôveru a zabezpečiť dôveryhodnosť.

Pri nedávnom skúmaní GPT-4výkon na skúške v uniforme advokáta (EBU), vznikli pochybnosti o presnosti OpenAItvrdenia týkajúce sa miery úspešnosti modelu. Na rozdiel od pôvodného tvrdenia, že GPT-4 prevyšuje 90 % jednotlivcov, zistenia naznačujú významný nesúlad medzi odhadovaným a skutočným výkonom modelu AI. Toto odhalenie zdôrazňuje dôležitosť transparentných hodnotiacich postupov a dostupných údajov na potvrdenie takýchto tvrdení.

GPT-4Výkon na americkej advokátskej skúške je v rozpore s jej tvrdeniami
@Midjourney

Skúška sa zamerala na rôzne faktory na zistenie skutočných schopností GPT-4. Po prvé, analýza februárových skúšok v Illinois to odhalili GPT-4Skóre 's sa priblížilo k 90. percentil. Zistilo sa však, že tieto skóre boli výrazne ovplyvnené opakovanými účastníkmi, ktorí predtým zlyhali na júlovej skúške, a teda dosiahli pod celkovým priemerom.

Okrem toho boli výsledky júlovej skúšky v rozpore OpenAI' s tvrdeniami, ktoré to odhaľujú GPT-4 iba by prekonávajú 68 % ľudí a 48 % esejí. GPT-4Výkon v porovnaní s prvými účastníkmi (okrem opakovaných testov) bol hodnotený na 63. percentile, keď sa brali do úvahy oficiálne údaje z niekoľkých testov v rôznych obdobiach, pričom eseje dosahovali výrazne nižšie skóre na 41. percentile.

Ďalší pohľad bol získaný skúmaním výkonu tých, ktorí skúšku zložili, vrátane licencovaných jednotlivcov a tých, ktorí čakajú na licenciu. v tejto súvislosti GPT-4Celkový výkon bol hodnotený na 48. percentile, pričom eseje dopadli ešte horšie na 15. percentile.

Aj keď sú tieto zistenia znepokojujúce, je dôležité zvážiť možnosť ľudskej chyby v procese preskúmania. Autor článku zdôrazňuje dôležitosť pochopenia vzorky, ktorú výskumníci použili na vyhodnotenie GPT-4výkon. Nedostatok oficiálnych údajov, najmä v agregovanej forme, sťažuje spravodlivé porovnanie a vyhodnotenie percentilov. Rozhodujúce je vytvorenie jasných a dostupných techník hodnotenia, ktoré môžu hodnotiť všetky zainteresované strany.

V reakcii na tieto obavy OpenAI sa vyzýva, aby odstránil nezrovnalosti a poskytnúť ďalšie poznatky do procesu hodnotenia. Transparentnosť a otvorenosť sú nevyhnutné na získanie dôvery a zabezpečenie dôveryhodnosti modelov AI v dôležitých oblastiach, ako je právo.

Je potrebné poznamenať, že článok nepojednáva o konkrétnom dosiahnutom skóre GPT-4, čo je údajne 298. Hodnotenie významnosti tohto skóre si vyžaduje kontextové pochopenie použitého systému známkovania. Rovnako ako dieťa prichádzajúce zo školy s B môže byť dôvodom na oslavu alebo sklamanie, interpretácia tohto GPT-4Skóre závisí od použitej stupnice.

Posúdenie GPT-4výkon na advokátskej skúške vyvoláva vážne obavy o pravdivosti OpenAIpočiatočné tvrdenia. Rozdiel medzi odhadovaným a skutočným výkonom zdôrazňuje dôležitosť jasných systémov hodnotenia a ľahko dostupných údajov. OpenAI sa vyzýva, aby riešil tieto výzvy a rozvíjal inkluzívnejší a spoľahlivý prístup k AI hodnotenie modelu.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac

Zakladatelia Peňaženky Samourai boli obvinení z uľahčenia obchodov Darknet v hodnote 2 miliárd USD

Obavy zakladateľov Peňaženky Samourai predstavujú pre odvetvie pozoruhodnú prekážku, ktorá podčiarkuje pretrvávajúcu ...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Chainlink a Rapid Addition spolupracujú na vývoji blockchainového adaptéra založeného na CCIP
firmy Novinová správa Technológia
Chainlink a Rapid Addition spolupracujú na vývoji blockchainového adaptéra založeného na CCIP
Môže 1, 2024
BitSmiley spúšťa Alphanet V1, debutuje na bitcoinovej vrstve 2 siete Bitlayer
Novinová správa Technológia
BitSmiley spúšťa Alphanet V1, debutuje na bitcoinovej vrstve 2 siete Bitlayer
Môže 1, 2024
Apríl 2024 zaznamenal historické minimum hackingov a podvodov, CertiK hlási 141 % pokles oproti marcu
trhy zabezpečenia Wiki Príbehy a recenzie Technológia
Apríl 2024 zaznamenal historické minimum hackingov a podvodov, CertiK hlási 141 % pokles oproti marcu
Môže 1, 2024
Cena bitcoinu klesla pred oznámením rozhodnutia Federálneho rezervného systému o úrokových sadzbách, analytici varujú pred možným posunom na trhu
trhy Novinová správa Technológia
Cena bitcoinu klesla pred oznámením rozhodnutia Federálneho rezervného systému o úrokových sadzbách, analytici varujú pred možným posunom na trhu
Môže 1, 2024
CRYPTOMERIA LABS PTE. LTD.