GPT-4Uspjeh na američkom pravosudnom ispitu u suprotnosti je s njegovim tvrdnjama
Ukratko
Ispitivanje GPT-4Učinak na Jedinstvenom pravosudnom ispitu otkrio je neslaganje između procijenjenog i stvarnog učinka, naglašavajući važnost transparentnih postupaka ocjenjivanja i dostupnih podataka.
OpenAI potiče se na rješavanje nedosljednosti i razvoj inkluzivnijeg i pouzdanijeg pristupa evaluaciji modela umjetne inteligencije kako bi se steklo povjerenje i osigurala vjerodostojnost.
U nedavnom ispitivanju GPT-4učinak na jedinstvenom pravosudnom ispitu (EBU), pojavile su se sumnje u točnost OpenAItvrdnje o stopi uspješnosti modela. Suprotno početnoj tvrdnji da GPT-4 nadmašuje 90% pojedinaca, nalazi upućuju na značajno odstupanje između procijenjene i stvarne izvedbe AI modela. Ovo otkriće naglašava važnost transparentnih postupaka procjene i dostupnih podataka za potvrđivanje takvih tvrdnji.
Ispitivanje se usredotočilo na različite čimbenike kako bi se utvrdile stvarne sposobnosti GPT-4. Prvo, analiza veljačkih ispita u Illinoisu otkrio je da GPT-4rezultati su se približili 90. pertiletil. Međutim, primijećeno je da su na te rezultate uvelike utjecali polaznici koji su prethodno pali na srpanjskom ispitu i tako postigli ispod ukupnog prosjeka.
Nadalje, rezultati srpanjskog ispita bili su kontradiktorni OpenAItvrdnje, otkrivajući da GPT-4 samo bi nadigrati 68% ljudi i 48% eseja. GPT-4Uspjeh ispitanika u odnosu na one koji prvi put polažu (isključujući ponovna polaganja) procijenjen je na 63. percentil kada su uzeti u obzir službeni podaci iz nekoliko testova u različitim razdobljima, pri čemu su eseji postigli znatno niže rezultate na 41. percentilu.
Dodatna perspektiva dobivena je ispitivanjem uspješnosti onih koji su položili ispit, uključujući licencirane pojedince i one koji čekaju licenciranje. U tom smislu, GPT-4Ukupna izvedba rangirana je na 48. percentilu, dok su eseji prošli još gore na 15. percentilu.
Iako su ovi nalazi zabrinjavajući, ključno je razmotriti mogućnost ljudske pogreške u procesu pregleda. Autor članka ističe važnost razumijevanja uzorka koji istraživači koriste za procjenu GPT-4izvedba. Nedostatak službenih podataka, posebno u agregiranom obliku, otežava poštenu usporedbu i procjenu percentila. Od ključne je važnosti uspostaviti jasne i dostupne tehnike evaluacije koje mogu evaluirati svi dionici.
Kao odgovor na ovu zabrinutost, OpenAI poziva se da se pozabavi nedosljednostima i pružiti daljnje uvide u proces evaluacije. Transparentnost i otvorenost ključni su za stjecanje povjerenja i osiguravanje vjerodostojnosti modela umjetne inteligencije u domenama s visokim ulozima kao što je pravo.
Treba napomenuti da se u članku ne govori o konkretnom rezultatu koji je postigao GPT-4, koji je navodno 298. Ocjenjivanje važnosti ovog rezultata zahtijeva kontekstualno razumijevanje korištenog sustava ocjenjivanja. Baš kao što dijete koje dolazi kući iz škole s B može biti ili razlog za slavlje ili razočaranje, tumačenje GPT-4rezultat ovisi o korištenoj ljestvici.
Procjena GPT-4uspjeh na pravosudnom ispitu izaziva ozbiljnu zabrinutost o istinitosti OpenAIpočetne tvrdnje. Jaz između procijenjenog i stvarnog učinka naglašava važnost jasnih sustava ocjenjivanja i lako dostupnih podataka. OpenAI potiče se na rješavanje ovih izazova i razvoj uključivijeg i pouzdan pristup AI evaluacija modela.
Pročitajte više o AI:
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.