Vijesti Tehnologija
Srpanj 20, 2023

Stanfordova studija potvrđuje GPT-4 Postaje gluplji

Ukratko

Studija koju su proveli Matei Zaharia i njegov tim sa Stanforda i UC Berkeley usporedila je učinak GPT-4 i ChatGPT za rješavanje zabrinutosti korisnika o učinkovitosti modela.

Studija je ocjenjivala modele na četiri specifična zadatka: matematika, kodiranje, osjetljivost i vizualno zaključivanje.

Matei Zaharia i njegov tim sa Stanforda i UC Berkeley provela studiju koji je uspoređivao izvedbu GPT-4 do ChatGPT. Ovo istraživanje nastojalo je riješiti zabrinutost korisnika da je učinkovitost modela smanjena.

Stanfordova studija potvrđuje GPT-4 Postaje gluplji
kredit: Metaverse Post
povezan: GPT-4 vs GPT-3: Što novi model ima za ponuditi?

Istraživači su osmislili studiju kako bi ocijenili modele na četiri specifična zadatka. Ti su zadaci uključivali:

  • Matematika: Sposobnost modela da odredi je li dati broj prost ili složen.
  • Kodiranje: Procjena sposobnosti modela za generiranje smislenog i funkcionalnog koda.
  • Osjetljivost: Analiza odgovora modela na pitanja s potencijalno "toksičnim" sadržajem.
  • Vizualno rasuđivanje: Testiranje sposobnosti modela za rješavanje problema koji uključuju vizualne obrasce, korištenjem ARC mjerila. Sudionici su morali identificirati uzorke u nizu slika i primijeniti ih na rješavanje novog primjera.

U području matematike i jedno i drugo GPT-4 verzije, izdanja u ožujku i lipnju, pokazale su dosljednu točnost u određivanju prostih i složenih brojeva. Modeli su pokazali vještinu u rukovanju ovim izračunima, dajući pouzdane rezultate.

Prelazimo na kodiranje, GPT-4 pokazao je poboljšanu sposobnost generiranja smislenog i funkcionalnog koda u usporedbi sa svojim prethodnicima. Mogućnosti generiranja koda modela su obećavale, nudeći potencijalne prednosti za programere i programere.

Što se tiče osjetljivosti, studija je procijenila odgovore modela na pitanja koja sadrže potencijalno štetan ili uvredljiv sadržaj. GPT-4 pokazao poboljšanu analizu osjetljivosti i pokazao poboljšanu sposobnost pružanja odgovarajućih odgovora u takvim kontekstima. Ovo označava pozitivan korak naprijed u rješavanju zabrinutosti korisnika o potencijalno problematičnim rezultatima.

Naposljetku, zadatke vizualnog razmišljanja temeljene na ARC mjerilu uspješno su dovršili obojica GPT-4 verzije. Modeli su učinkovito identificirali uzorke unutar skupova slika i pokazali sposobnost primjene tih obrazaca za rješavanje novih primjera. To pokazuje njihovu sposobnost vizualnog razumijevanja i zaključivanja.

Rezultati ukazuju na to GPT-4 pokazalo je smanjenje točnosti, sa samo nešto više od 2% točnih odgovora. Važno je napomenuti da ovaj konkretni test prvenstveno procjenjuje sposobnost modela da se prisjeti podataka, a ne prikazuje njegove inherentne matematičke sposobnosti. Zadatak se vrti oko prisjećanja memorije, budući da modelu nedostaje sposobnost za provjeru valjanosti izračuna i zaključivanje, osobito kada su u pitanju prosti brojevi.

ChatGPT pokazao je znatan rast metrike izvedbe do lipnja, pokazujući izvanredno poboljšanje od preko deset puta. Iako se studija nije bavila specifičnim čimbenicima koji pridonose ovom poboljšanju, ističe se ChatGPTnapredak u matematičkom zaključivanju i sposobnostima rješavanja problema.

Studija nije procijenila kvalitetu ili ispravnost generiranog koda. Umjesto toga, čini se da modeli pokazuju više "prilagođeno" ponašanje, nudeći isječke koda bez osiguravanja njihove funkcionalne točnosti.
povezan: 10+ najboljih AI pojačivača fotografija u 2023

Kvaliteta GPT-4 i ChatGPT je ispitan nakon analize njihovih sposobnosti programiranja. Međutim, pomniji pogled otkriva neke fascinantne nijanse koje proturječe prvom dojmu.

Autori nisu izvršili niti provjerili ispravnost koda; njihova se procjena temeljila isključivo na njegovoj valjanosti kao Python koda. Osim toga, činilo se da su modeli naučili određenu tehniku ​​uokvirivanja koda pomoću dekoratera, što je nenamjerno ometalo izvršenje koda.

Kao rezultat toga, postaje očito da se niti rezultati niti sam eksperiment ne mogu smatrati dokazom degradacije modela. Umjesto toga, modeli pokazuju drugačiji pristup generiranju odgovora, potencijalno odražavajući varijacije u njihovoj obuci.

Ispit programerskih i matematičkih sposobnosti GPT-4 i ChatGPT rasvijetlio je zanimljive nalaze. Suprotno početnim pretpostavkama, modeli su pokazali značajna poboljšanja u određenim područjima, dok su pokazali promjene ponašanja u drugima.

Kada su u pitanju programski zadaci, oba modela su pokazala smanjenje u odgovaranju na "pogrešne" upite, s GPT-4 pokazujući više od četiri puta smanjenje u takvim slučajevima. Dodatno, na zadatku Vizualno rasuđivanje, kvaliteta odgovora poboljšana je za nekoliko postotnih bodova za oba modela. Ova zapažanja ukazuju na napredak, a ne na degradaciju performansi.

Međutim, procjena matematičkih vještina unosi jedan intrigantan element. Modeli su dosljedno davali proste brojeve kao odgovore, što ukazuje na dosljedan odgovor "da". Ipak, nakon uvođenja kompozitnih brojeva u uzorak, postalo je očito da su modeli promijenili svoje ponašanje i počeli davati odgovore "ne", što ukazuje na nesigurnost, a ne na pad kvalitete. Sam test je neobičan i jednostran, a njegovi se rezultati mogu pripisati promjenama u ponašanju modela, a ne padu kvalitete.

Važno je napomenuti da su testirane verzije API-ja, a ne verzije temeljene na pregledniku. Iako je moguće da su modeli u pregledniku podvrgnuti prilagodbama radi optimizacije resursa, priložena studija to ne čini defitivno dokazati ovu hipotezu. Učinak takvih promjena može se usporediti sa stvarnim smanjenjem modela, što dovodi do potencijalnih izazova za korisnike koji se oslanjaju na specifičan rad upiti i skupljeno iskustvo.

U slučaju GPT-4 API aplikacije, ta odstupanja u ponašanju mogu imati opipljive posljedice. Kod koji je razvijen na temelju potreba i zadataka određenog korisnika možda više neće funkcionirati kako je predviđeno ako model doživi promjene u ponašanju.

Preporuča se da korisnici uključe slične prakse testiranja u svoje tijekove rada. Stvaranjem skupa upita, popratnih tekstova i očekivanih rezultata, korisnici mogu redovito provjeravati dosljednost između svojih očekivanja i odgovora modela. Čim se otkriju bilo kakva odstupanja, mogu se poduzeti odgovarajuće mjere za ispravljanje situacije.

Pročitajte više o AI:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Hot Stories

Inside Wall Street Memes (WSM): otkrivanje naslova

by Viktorija Palčik
Neka 07, 2024

Otkrijte Crypto Whales: Tko je tko na tržištu

by Viktorija Palčik
Neka 07, 2024
Pridružite se našem biltenu.
Najnovije vijesti

Institucionalni apetit raste prema Bitcoin ETF-ovima usred volatilnosti

Objave putem 13F prijava otkrivaju značajne institucionalne ulagače koji se upuštaju u Bitcoin ETF-ove, naglašavajući sve veće prihvaćanje ...

Znati više

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Inside Wall Street Memes (WSM): otkrivanje naslova
posao tržišta Priče i recenzije Tehnologija
Inside Wall Street Memes (WSM): otkrivanje naslova
Neka 7, 2024
Otkrijte Crypto Whales: Tko je tko na tržištu
posao tržišta Priče i recenzije Tehnologija
Otkrijte Crypto Whales: Tko je tko na tržištu
Neka 7, 2024
Orbiter Finance surađuje s Bitcoin Layer 2 Zulu mrežom i postavlja se na Is Lwazi Testnet
posao Vijesti Tehnologija
Orbiter Finance surađuje s Bitcoin Layer 2 Zulu mrežom i postavlja se na Is Lwazi Testnet 
Neka 7, 2024
Crypto Exchange Bybit integrira USDe Ethena Labs kao kolateralnu imovinu, omogućuje trgovinske parove BTC-USDe i ETH-USDe
tržišta Vijesti Tehnologija
Crypto Exchange Bybit integrira USDe Ethena Labs kao kolateralnu imovinu, omogućuje trgovinske parove BTC-USDe i ETH-USDe
Neka 7, 2024
CRYPTOMERIA LABS PTE. LTD.