Novice SMW Tehnologija
Maj 30, 2023

GPT-4Uspešnost uporabnika na pravosodnem izpitu v ZDA je v nasprotju z njegovimi trditvami

Na kratko

Preizkus GPT-4Uspešnost na Enotnem pravosodnem izpitu je razkrila neskladje med ocenjeno in dejansko uspešnostjo ter poudarila pomen transparentnih postopkov ocenjevanja in dostopnih podatkov.

OpenAI se spodbuja, da obravnava neskladja in razvije bolj vključujoč in zanesljiv pristop k vrednotenju modela umetne inteligence, da pridobi zaupanje in zagotovi verodostojnost.

V nedavnem pregledu GPT-4nastop na enotnem pravosodnem izpitu (EBU), so se pojavili dvomi o točnosti OpenAItrditve glede stopnje uspešnosti modela. V nasprotju s prvotno trditvijo, da GPT-4 prekaša 90 % posameznikov, ugotovitve kažejo na znatno neskladje med ocenjeno in dejansko zmogljivostjo modela AI. To razkritje poudarja pomen preglednih postopkov ocenjevanja in dostopnih podatkov za potrditev takih trditev.

GPT-4Uspešnost uporabnika na pravosodnem izpitu v ZDA je v nasprotju z njegovimi trditvami
@Midjourney

Pregled se je osredotočil na različne dejavnike, da bi ugotovil resnične sposobnosti GPT-4. Prvič, Analiza februarskih izpitov v Illinoisu je razkril, da GPT-4rezultati so se približali 90. pertiletil. Vendar je bilo ugotovljeno, da so na te rezultate močno vplivali ponavljalci, ki so pred tem padli na julijskem izpitu in so tako dosegli rezultate pod skupnim povprečjem.

Poleg tega so bili rezultati julijskega izpita v nasprotju OpenAItrditve, ki razkrivajo, da GPT-4 bi samo Izginiti 68 % ljudi in 48 % esejev. GPT-4Uspešnost udeležencev, ki so prvič sodelovali (brez ponovnih izpitov), ​​je bila ocenjena na 63. percentil, ko so upoštevani uradni podatki iz več testov v različnih obdobjih, pri čemer so eseji dosegli precej nižje rezultate na 41. percentilu.

Dodatno perspektivo smo pridobili s preverjanjem uspešnosti tistih, ki so opravili izpit, vključno z licenciranimi posamezniki in tistimi, ki čakajo na licenco. V zvezi s tem, GPT-4Splošna uspešnost osebe je bila uvrščena na 48. percentil, eseji pa so se odrezali še slabše na 15. percentil.

Čeprav so te ugotovitve zaskrbljujoče, je ključnega pomena upoštevati možnost človeške napake v postopku pregleda. Avtor članka poudarja pomen razumevanja vzorca, ki ga raziskovalci uporabljajo za vrednotenje GPT-4uspešnost. Pomanjkanje uradnih podatkov, zlasti v agregirani obliki, otežuje pošteno primerjavo in vrednotenje percentilov. Ključnega pomena je vzpostavitev jasnih in dostopnih tehnik vrednotenja, ki jih lahko ocenijo vse zainteresirane strani.

Kot odgovor na te pomisleke OpenAI poziva, naj odpravi neskladja in zagotoviti dodatne vpoglede v postopek ocenjevanja. Preglednost in odprtost sta bistvenega pomena za pridobitev zaupanja in zagotavljanje verodostojnosti modelov umetne inteligence na področjih z velikimi vložki, kot je pravo.

Opozoriti je treba, da članek ne obravnava specifičnega rezultata, ki ga je dosegel GPT-4, ki naj bi bil 298. Ocenjevanje pomembnosti tega rezultata zahteva kontekstualno razumevanje uporabljenega sistema ocenjevanja. Tako kot je lahko otrok, ki pride domov iz šole z B, razlog za slavje ali razočaranje, je razlaga GPT-4rezultat je odvisen od uporabljene lestvice.

Ocena GPT-4uspešnost na pravosodnem izpitu vzbuja resne pomisleke o verodostojnosti OpenAIprve trditve. Razkorak med ocenjeno in dejansko uspešnostjo poudarja pomen jasnih sistemov ocenjevanja in lahko dostopnih podatkov. OpenAI se spodbuja, da se spopade s temi izzivi in ​​razvije bolj vključujoče in zanesljiv pristop k AI vrednotenje modela.

Preberite več o AI:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem

Ustanovitelji denarnice Samourai Wallet obtoženi omogočanja 2 milijard dolarjev pri poslih Darknet

Zaskrbljenost ustanoviteljev denarnice Samourai Wallet predstavlja opazno nazadovanje za industrijo, ki poudarja vztrajno ...

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Chainlink in Rapid Addition sodelujeta pri razvoju adapterja za veriženje blokov, ki temelji na CCIP
ŽELITE POSTATI PARTNER Novice Tehnologija
Chainlink in Rapid Addition sodelujeta pri razvoju adapterja za veriženje blokov, ki temelji na CCIP
Maj 1, 2024
BitSmiley lansira Alphanet V1, debitira na Bitcoin Layer 2 Network Bitlayer
Novice Tehnologija
BitSmiley lansira Alphanet V1, debitira na Bitcoin Layer 2 Network Bitlayer
Maj 1, 2024
April 2024 beleži zgodovinsko nizko število vdorov in prevar, CertiK poroča o 141-odstotnem zmanjšanju od marca
Prisotnost Varnost Wiki Zgodbe in ocene Tehnologija
April 2024 beleži zgodovinsko nizko število vdorov in prevar, CertiK poroča o 141-odstotnem zmanjšanju od marca
Maj 1, 2024
Cena bitcoina pada pred objavo odločitve Federal Reserve glede obrestne mere, analitiki svarijo pred morebitnim premikom trga
Prisotnost Novice Tehnologija
Cena bitcoina pada pred objavo odločitve Federal Reserve glede obrestne mere, analitiki svarijo pred morebitnim premikom trga
Maj 1, 2024
CRYPTOMERIA LABS PTE. LTD.