Vijesti SMW Tehnologija
Neka 30, 2023

GPT-4Uspjeh na američkom pravosudnom ispitu u suprotnosti je s njegovim tvrdnjama

Ukratko

Ispitivanje GPT-4Učinak na Jedinstvenom pravosudnom ispitu otkrio je neslaganje između procijenjenog i stvarnog učinka, naglašavajući važnost transparentnih postupaka ocjenjivanja i dostupnih podataka.

OpenAI potiče se na rješavanje nedosljednosti i razvoj inkluzivnijeg i pouzdanijeg pristupa evaluaciji modela umjetne inteligencije kako bi se steklo povjerenje i osigurala vjerodostojnost.

U nedavnom ispitivanju GPT-4učinak na jedinstvenom pravosudnom ispitu (EBU), pojavile su se sumnje u točnost OpenAItvrdnje o stopi uspješnosti modela. Suprotno početnoj tvrdnji da GPT-4 nadmašuje 90% pojedinaca, nalazi upućuju na značajno odstupanje između procijenjene i stvarne izvedbe AI modela. Ovo otkriće naglašava važnost transparentnih postupaka procjene i dostupnih podataka za potvrđivanje takvih tvrdnji.

GPT-4Uspjeh na američkom pravosudnom ispitu u suprotnosti je s njegovim tvrdnjama
@Midjourney

Ispitivanje se usredotočilo na različite čimbenike kako bi se utvrdile stvarne sposobnosti GPT-4. Prvo, analiza veljačkih ispita u Illinoisu otkrio je da GPT-4rezultati su se približili 90. pertiletil. Međutim, primijećeno je da su na te rezultate uvelike utjecali polaznici koji su prethodno pali na srpanjskom ispitu i tako postigli ispod ukupnog prosjeka.

Nadalje, rezultati srpanjskog ispita bili su kontradiktorni OpenAItvrdnje, otkrivajući da GPT-4 samo bi nadigrati 68% ljudi i 48% eseja. GPT-4Uspjeh ispitanika u odnosu na one koji prvi put polažu (isključujući ponovna polaganja) procijenjen je na 63. percentil kada su uzeti u obzir službeni podaci iz nekoliko testova u različitim razdobljima, pri čemu su eseji postigli znatno niže rezultate na 41. percentilu.

Dodatna perspektiva dobivena je ispitivanjem uspješnosti onih koji su položili ispit, uključujući licencirane pojedince i one koji čekaju licenciranje. U tom smislu, GPT-4Ukupna izvedba rangirana je na 48. percentilu, dok su eseji prošli još gore na 15. percentilu.

Iako su ovi nalazi zabrinjavajući, ključno je razmotriti mogućnost ljudske pogreške u procesu pregleda. Autor članka ističe važnost razumijevanja uzorka koji istraživači koriste za procjenu GPT-4izvedba. Nedostatak službenih podataka, posebno u agregiranom obliku, otežava poštenu usporedbu i procjenu percentila. Od ključne je važnosti uspostaviti jasne i dostupne tehnike evaluacije koje mogu evaluirati svi dionici.

Kao odgovor na ovu zabrinutost, OpenAI poziva se da se pozabavi nedosljednostima i pružiti daljnje uvide u proces evaluacije. Transparentnost i otvorenost ključni su za stjecanje povjerenja i osiguravanje vjerodostojnosti modela umjetne inteligencije u domenama s visokim ulozima kao što je pravo.

Treba napomenuti da se u članku ne govori o konkretnom rezultatu koji je postigao GPT-4, koji je navodno 298. Ocjenjivanje važnosti ovog rezultata zahtijeva kontekstualno razumijevanje korištenog sustava ocjenjivanja. Baš kao što dijete koje dolazi kući iz škole s B može biti ili razlog za slavlje ili razočaranje, tumačenje GPT-4rezultat ovisi o korištenoj ljestvici.

Procjena GPT-4uspjeh na pravosudnom ispitu izaziva ozbiljnu zabrinutost o istinitosti OpenAIpočetne tvrdnje. Jaz između procijenjenog i stvarnog učinka naglašava važnost jasnih sustava ocjenjivanja i lako dostupnih podataka. OpenAI potiče se na rješavanje ovih izazova i razvoj uključivijeg i pouzdan pristup AI evaluacija modela.

Pročitajte više o AI:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više

Osnivači novčanika Samourai optuženi za omogućavanje 2 milijarde dolara u poslovima Darkneta

Uhićenje osnivača Samourai Walleta predstavlja značajno nazadovanje u industriji, naglašavajući upornu ...

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
BNB lanac predstavlja drugu sezonu Airdrop Program saveza, partneri sa sedam novih projekata za nagrade zajednice
tržišta Vijesti Tehnologija
BNB lanac predstavlja drugu sezonu Airdrop Program saveza, partneri sa sedam novih projekata za nagrade zajednice
Travnja 30, 2024
Mreža dWallet integrira Monad kako bi ga poboljšala izvornim višestrukim lancem DeFi Sposobnosti
posao Vijesti Tehnologija
Mreža dWallet integrira Monad kako bi ga poboljšala izvornim višestrukim lancem DeFi Sposobnosti
Travnja 30, 2024
Animoca Brands udružuje se s Darewiseom kako bi pokrenuli Opal Bitcoin projekt, šireći se na područje Bitcoina
posao Vijesti Tehnologija
Animoca Brands udružuje se s Darewiseom kako bi pokrenuli Opal Bitcoin projekt, šireći se na područje Bitcoina
Travnja 30, 2024
HashKey Group udružuje snage s GreenBTC.Clubom za postizanje ugljične neutralnosti za Bosera HashKey Bitcoin ETF
posao Vijesti Tehnologija
HashKey Group udružuje snage s GreenBTC.Clubom za postizanje ugljične neutralnosti za Bosera HashKey Bitcoin ETF
Travnja 30, 2024
CRYPTOMERIA LABS PTE. LTD.