Stanfordova študija potrjuje GPT-4 Postaja neumnejša
Na kratko
Študija Mateija Zaharije in njegove ekipe s Stanforda in UC Berkeley je primerjala delovanje GPT-4 in ChatGPT za obravnavo pomislekov uporabnikov glede učinkovitosti modela.
Študija je ocenjevala modele pri štirih posebnih nalogah: matematika, kodiranje, občutljivost in vizualno sklepanje.
Matei Zaharia in njegova ekipa iz Stanforda in UC Berkeley izvedla študijo ki je primerjal uspešnost GPT-4 do ChatGPT. Ta preiskava je poskušala obravnavati pomisleke uporabnikov, da se je učinkovitost modela zmanjšala.
Raziskovalci so zasnovali študijo za ovrednotenje modelov na štirih posebnih nalogah. Te naloge so vključevale:
- Matematika: sposobnost modela, da ugotovi, ali je dano število praštevilo ali sestavljeno.
- Kodiranje: Ocenjevanje zmožnosti modela za ustvarjanje smiselne in funkcionalne kode.
- Občutljivost: analiziranje odgovorov modela na vprašanja s potencialno "strupeno" vsebino.
- Vizualno razmišljanje: Preizkušanje zmožnosti modela za reševanje problemov, ki vključujejo vizualne vzorce, z uporabo merila ARC. Udeleženci so morali prepoznati vzorce v nizu slik in jih uporabiti pri reševanju novega primera.
Na področju matematike oboje GPT-4 različici, marčevski in junijski izdaji, sta pokazali dosledno natančnost pri določanju praštevil in sestavljenih števil. Modeli so pokazali strokovnost pri obravnavanju teh izračunov in zagotovili zanesljive rezultate.
Nadaljujemo s kodiranjem, GPT-4 je pokazal izboljšano sposobnost generiranja smiselne in funkcionalne kode v primerjavi s svojimi predhodniki. Zmogljivosti modela za ustvarjanje kode so bile obetavne in ponujajo potencialne koristi za razvijalce in programerje.
Kar zadeva občutljivost, je študija ocenila odgovore modelov na vprašanja, ki vsebujejo potencialno škodljivo ali žaljivo vsebino. GPT-4 dokazal izboljšano analizo občutljivosti in pokazal izboljšano sposobnost zagotavljanja ustreznih odzivov v takih kontekstih. To pomeni pozitiven korak naprej pri obravnavanju pomislekov uporabnikov glede potencialno problematičnih rezultatov.
Nazadnje sta oba uspešno opravila naloge vizualnega razmišljanja, ki temeljijo na merilu uspešnosti ARC GPT-4 različice. Modeli so učinkovito identificirali vzorce znotraj nizov slik in pokazali sposobnost uporabe teh vzorcev za reševanje novih primerov. To prikazuje njihovo sposobnost vizualnega razumevanja in sklepanja.
ChatGPT je do junija pokazal znatno rast meritev uspešnosti, kar je pokazalo izjemno več kot desetkratno izboljšanje. Čeprav se študija ni poglobila v posebne dejavnike, ki prispevajo k tej izboljšavi, poudarja ChatGPTnapredek v matematičnem sklepanju in sposobnostih reševanja problemov.
Kakovost GPT-4 in ChatGPT je bil vprašan po analizi njihovih sposobnosti programiranja. Vendar pa podrobnejši pogled razkrije nekaj fascinantnih nians, ki so v nasprotju s prvim vtisom.
Avtorji niso izvedli ali preverili pravilnosti kode; njihova ocena je temeljila izključno na njegovi veljavnosti kot kode Python. Poleg tega se zdi, da so se modeli naučili posebne tehnike uokvirjanja kode z uporabo dekoraterja, ki je nenamerno oviral izvajanje kode.
Posledično postane očitno, da niti rezultatov niti poskusa samega ni mogoče šteti za dokaz degradacije modela. Namesto tega modeli prikazujejo drugačen pristop k ustvarjanju odgovorov, kar lahko odraža razlike v njihovem usposabljanju.
Ko gre za programska opravila, sta oba modela pokazala zmanjšanje odzivanja na "napačne" pozive, z GPT-4 ki v takih primerih kažejo več kot štirikratno zmanjšanje. Poleg tega se je pri nalogi Visual Reasoning kakovost odgovorov izboljšala za nekaj odstotnih točk za oba modela. Ta opažanja kažejo na napredek in ne na poslabšanje delovanja.
Vendar pa ocenjevanje matematičnih sposobnosti prinaša zanimiv element. Modeli so dosledno zagotavljali praštevila kot odgovore, kar kaže na dosleden odgovor "da". Vendar pa je po uvedbi sestavljenih števil v vzorec postalo očitno, da so modeli spremenili svoje vedenje in začeli zagotavljati odgovore »ne«, kar kaže na negotovost in ne na upad kakovosti. Sam test je svojevrsten in enostranski, njegove rezultate pa je mogoče pripisati spremembam v obnašanju modela in ne upadu kakovosti.
Pomembno je omeniti, da so bile testirane različice API-ja in ne različice, ki temeljijo na brskalniku. Čeprav je možno, da so bili modeli v brskalniku prilagojeni za optimizacijo virov, priložena študija tega ne stori definazorno dokazati to hipotezo. Vpliv takšnih premikov je lahko primerljiv z dejanskim znižanjem modela, kar vodi do morebitnih izzivov za uporabnike, ki se zanašajo na določeno delovno pozove in nabranih izkušenj.
V primeru GPT-4 API aplikacij, imajo lahko ta odstopanja v obnašanju oprijemljive posledice. Koda, ki je bila razvita na podlagi potreb in nalog določenega uporabnika, morda ne bo več delovala, kot je predvideno, če se model spremeni v svojem obnašanju.
Priporočljivo je, da uporabniki v svoje poteke dela vključijo podobne prakse testiranja. Z ustvarjanjem nabora pozivov, spremnih besedil in pričakovanih rezultatov lahko uporabniki redno preverjajo skladnost med svojimi pričakovanji in odzivi modela. Takoj ko se odkrijejo kakršna koli odstopanja, je mogoče sprejeti ustrezne ukrepe za odpravo stanja.
Preberite več o AI:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.