Stanfordova studija potvrđuje GPT-4 Postaje gluplji
Ukratko
Studija koju su proveli Matei Zaharia i njegov tim sa Stanforda i UC Berkeley usporedila je učinak GPT-4 i ChatGPT za rješavanje zabrinutosti korisnika o učinkovitosti modela.
Studija je ocjenjivala modele na četiri specifična zadatka: matematika, kodiranje, osjetljivost i vizualno zaključivanje.
Matei Zaharia i njegov tim sa Stanforda i UC Berkeley provela studiju koji je uspoređivao izvedbu GPT-4 do ChatGPT. Ovo istraživanje nastojalo je riješiti zabrinutost korisnika da je učinkovitost modela smanjena.
Istraživači su osmislili studiju kako bi ocijenili modele na četiri specifična zadatka. Ti su zadaci uključivali:
- Matematika: Sposobnost modela da odredi je li dati broj prost ili složen.
- Kodiranje: Procjena sposobnosti modela za generiranje smislenog i funkcionalnog koda.
- Osjetljivost: Analiza odgovora modela na pitanja s potencijalno "toksičnim" sadržajem.
- Vizualno rasuđivanje: Testiranje sposobnosti modela za rješavanje problema koji uključuju vizualne obrasce, korištenjem ARC mjerila. Sudionici su morali identificirati uzorke u nizu slika i primijeniti ih na rješavanje novog primjera.
U području matematike i jedno i drugo GPT-4 verzije, izdanja u ožujku i lipnju, pokazale su dosljednu točnost u određivanju prostih i složenih brojeva. Modeli su pokazali vještinu u rukovanju ovim izračunima, dajući pouzdane rezultate.
Prelazimo na kodiranje, GPT-4 pokazao je poboljšanu sposobnost generiranja smislenog i funkcionalnog koda u usporedbi sa svojim prethodnicima. Mogućnosti generiranja koda modela su obećavale, nudeći potencijalne prednosti za programere i programere.
Što se tiče osjetljivosti, studija je procijenila odgovore modela na pitanja koja sadrže potencijalno štetan ili uvredljiv sadržaj. GPT-4 pokazao poboljšanu analizu osjetljivosti i pokazao poboljšanu sposobnost pružanja odgovarajućih odgovora u takvim kontekstima. Ovo označava pozitivan korak naprijed u rješavanju zabrinutosti korisnika o potencijalno problematičnim rezultatima.
Naposljetku, zadatke vizualnog razmišljanja temeljene na ARC mjerilu uspješno su dovršili obojica GPT-4 verzije. Modeli su učinkovito identificirali uzorke unutar skupova slika i pokazali sposobnost primjene tih obrazaca za rješavanje novih primjera. To pokazuje njihovu sposobnost vizualnog razumijevanja i zaključivanja.
ChatGPT pokazao je znatan rast metrike izvedbe do lipnja, pokazujući izvanredno poboljšanje od preko deset puta. Iako se studija nije bavila specifičnim čimbenicima koji pridonose ovom poboljšanju, ističe se ChatGPTnapredak u matematičkom zaključivanju i sposobnostima rješavanja problema.
Kvaliteta GPT-4 i ChatGPT je ispitan nakon analize njihovih sposobnosti programiranja. Međutim, pomniji pogled otkriva neke fascinantne nijanse koje proturječe prvom dojmu.
Autori nisu izvršili niti provjerili ispravnost koda; njihova se procjena temeljila isključivo na njegovoj valjanosti kao Python koda. Osim toga, činilo se da su modeli naučili određenu tehniku uokvirivanja koda pomoću dekoratera, što je nenamjerno ometalo izvršenje koda.
Kao rezultat toga, postaje očito da se niti rezultati niti sam eksperiment ne mogu smatrati dokazom degradacije modela. Umjesto toga, modeli pokazuju drugačiji pristup generiranju odgovora, potencijalno odražavajući varijacije u njihovoj obuci.
Kada su u pitanju programski zadaci, oba modela su pokazala smanjenje u odgovaranju na "pogrešne" upite, s GPT-4 pokazujući više od četiri puta smanjenje u takvim slučajevima. Dodatno, na zadatku Vizualno rasuđivanje, kvaliteta odgovora poboljšana je za nekoliko postotnih bodova za oba modela. Ova zapažanja ukazuju na napredak, a ne na degradaciju performansi.
Međutim, procjena matematičkih vještina unosi jedan intrigantan element. Modeli su dosljedno davali proste brojeve kao odgovore, što ukazuje na dosljedan odgovor "da". Ipak, nakon uvođenja kompozitnih brojeva u uzorak, postalo je očito da su modeli promijenili svoje ponašanje i počeli davati odgovore "ne", što ukazuje na nesigurnost, a ne na pad kvalitete. Sam test je neobičan i jednostran, a njegovi se rezultati mogu pripisati promjenama u ponašanju modela, a ne padu kvalitete.
Važno je napomenuti da su testirane verzije API-ja, a ne verzije temeljene na pregledniku. Iako je moguće da su modeli u pregledniku podvrgnuti prilagodbama radi optimizacije resursa, priložena studija to ne čini defitivno dokazati ovu hipotezu. Učinak takvih promjena može se usporediti sa stvarnim smanjenjem modela, što dovodi do potencijalnih izazova za korisnike koji se oslanjaju na specifičan rad upiti i skupljeno iskustvo.
U slučaju GPT-4 API aplikacije, ta odstupanja u ponašanju mogu imati opipljive posljedice. Kod koji je razvijen na temelju potreba i zadataka određenog korisnika možda više neće funkcionirati kako je predviđeno ako model doživi promjene u ponašanju.
Preporuča se da korisnici uključe slične prakse testiranja u svoje tijekove rada. Stvaranjem skupa upita, popratnih tekstova i očekivanih rezultata, korisnici mogu redovito provjeravati dosljednost između svojih očekivanja i odgovora modela. Čim se otkriju bilo kakva odstupanja, mogu se poduzeti odgovarajuće mjere za ispravljanje situacije.
Pročitajte više o AI:
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.