Novice Tehnologija
Julij 20, 2023

Stanfordova študija potrjuje GPT-4 Postaja neumnejša

Na kratko

Študija Mateija Zaharije in njegove ekipe s Stanforda in UC Berkeley je primerjala delovanje GPT-4 in ChatGPT za obravnavo pomislekov uporabnikov glede učinkovitosti modela.

Študija je ocenjevala modele pri štirih posebnih nalogah: matematika, kodiranje, občutljivost in vizualno sklepanje.

Matei Zaharia in njegova ekipa iz Stanforda in UC Berkeley izvedla študijo ki je primerjal uspešnost GPT-4 do ChatGPT. Ta preiskava je poskušala obravnavati pomisleke uporabnikov, da se je učinkovitost modela zmanjšala.

Stanfordova študija potrjuje GPT-4 Postaja neumnejša
Zasluge: Metaverse Post
Podobni: GPT-4 vs GPT-3: Kaj ponuja novi model?

Raziskovalci so zasnovali študijo za ovrednotenje modelov na štirih posebnih nalogah. Te naloge so vključevale:

  • Matematika: sposobnost modela, da ugotovi, ali je dano število praštevilo ali sestavljeno.
  • Kodiranje: Ocenjevanje zmožnosti modela za ustvarjanje smiselne in funkcionalne kode.
  • Občutljivost: analiziranje odgovorov modela na vprašanja s potencialno "strupeno" vsebino.
  • Vizualno razmišljanje: Preizkušanje zmožnosti modela za reševanje problemov, ki vključujejo vizualne vzorce, z uporabo merila ARC. Udeleženci so morali prepoznati vzorce v nizu slik in jih uporabiti pri reševanju novega primera.

Na področju matematike oboje GPT-4 različici, marčevski in junijski izdaji, sta pokazali dosledno natančnost pri določanju praštevil in sestavljenih števil. Modeli so pokazali strokovnost pri obravnavanju teh izračunov in zagotovili zanesljive rezultate.

Nadaljujemo s kodiranjem, GPT-4 je pokazal izboljšano sposobnost generiranja smiselne in funkcionalne kode v primerjavi s svojimi predhodniki. Zmogljivosti modela za ustvarjanje kode so bile obetavne in ponujajo potencialne koristi za razvijalce in programerje.

Kar zadeva občutljivost, je študija ocenila odgovore modelov na vprašanja, ki vsebujejo potencialno škodljivo ali žaljivo vsebino. GPT-4 dokazal izboljšano analizo občutljivosti in pokazal izboljšano sposobnost zagotavljanja ustreznih odzivov v takih kontekstih. To pomeni pozitiven korak naprej pri obravnavanju pomislekov uporabnikov glede potencialno problematičnih rezultatov.

Nazadnje sta oba uspešno opravila naloge vizualnega razmišljanja, ki temeljijo na merilu uspešnosti ARC GPT-4 različice. Modeli so učinkovito identificirali vzorce znotraj nizov slik in pokazali sposobnost uporabe teh vzorcev za reševanje novih primerov. To prikazuje njihovo sposobnost vizualnega razumevanja in sklepanja.

Rezultati kažejo, da GPT-4 je pokazala zmanjšanje natančnosti, le nekaj več kot 2 % pravilnih odgovorov. Pomembno je omeniti, da ta poseben test ocenjuje predvsem sposobnost modela, da si prikliče podatke, namesto da prikaže njegove inherentne matematične sposobnosti. Naloga se vrti okoli priklica spomina, saj model nima zmožnosti za validacijo izračuna in sklepanje, zlasti ko gre za praštevila.

ChatGPT je do junija pokazal znatno rast meritev uspešnosti, kar je pokazalo izjemno več kot desetkratno izboljšanje. Čeprav se študija ni poglobila v posebne dejavnike, ki prispevajo k tej izboljšavi, poudarja ChatGPTnapredek v matematičnem sklepanju in sposobnostih reševanja problemov.

Študija ni ocenila kakovosti ali pravilnosti ustvarjene kode. Namesto tega se zdi, da se modeli obnašajo bolj »po meri«, saj ponujajo delčke kode, ne da bi zagotovili njihovo funkcionalno natančnost.
Podobni: 10+ najboljših izboljševalcev fotografij z umetno inteligenco v letu 2023

Kakovost GPT-4 in ChatGPT je bil vprašan po analizi njihovih sposobnosti programiranja. Vendar pa podrobnejši pogled razkrije nekaj fascinantnih nians, ki so v nasprotju s prvim vtisom.

Avtorji niso izvedli ali preverili pravilnosti kode; njihova ocena je temeljila izključno na njegovi veljavnosti kot kode Python. Poleg tega se zdi, da so se modeli naučili posebne tehnike uokvirjanja kode z uporabo dekoraterja, ki je nenamerno oviral izvajanje kode.

Posledično postane očitno, da niti rezultatov niti poskusa samega ni mogoče šteti za dokaz degradacije modela. Namesto tega modeli prikazujejo drugačen pristop k ustvarjanju odgovorov, kar lahko odraža razlike v njihovem usposabljanju.

Preverjanje sposobnosti programiranja in matematike GPT-4 in ChatGPT je osvetlil zanimive ugotovitve. V nasprotju s prvotnimi predpostavkami so modeli pokazali opazne izboljšave na nekaterih področjih, medtem ko so pokazali vedenjske spremembe na drugih.

Ko gre za programska opravila, sta oba modela pokazala zmanjšanje odzivanja na "napačne" pozive, z GPT-4 ki v takih primerih kažejo več kot štirikratno zmanjšanje. Poleg tega se je pri nalogi Visual Reasoning kakovost odgovorov izboljšala za nekaj odstotnih točk za oba modela. Ta opažanja kažejo na napredek in ne na poslabšanje delovanja.

Vendar pa ocenjevanje matematičnih sposobnosti prinaša zanimiv element. Modeli so dosledno zagotavljali praštevila kot odgovore, kar kaže na dosleden odgovor "da". Vendar pa je po uvedbi sestavljenih števil v vzorec postalo očitno, da so modeli spremenili svoje vedenje in začeli zagotavljati odgovore »ne«, kar kaže na negotovost in ne na upad kakovosti. Sam test je svojevrsten in enostranski, njegove rezultate pa je mogoče pripisati spremembam v obnašanju modela in ne upadu kakovosti.

Pomembno je omeniti, da so bile testirane različice API-ja in ne različice, ki temeljijo na brskalniku. Čeprav je možno, da so bili modeli v brskalniku prilagojeni za optimizacijo virov, priložena študija tega ne stori definazorno dokazati to hipotezo. Vpliv takšnih premikov je lahko primerljiv z dejanskim znižanjem modela, kar vodi do morebitnih izzivov za uporabnike, ki se zanašajo na določeno delovno pozove in nabranih izkušenj.

V primeru GPT-4 API aplikacij, imajo lahko ta odstopanja v obnašanju oprijemljive posledice. Koda, ki je bila razvita na podlagi potreb in nalog določenega uporabnika, morda ne bo več delovala, kot je predvideno, če se model spremeni v svojem obnašanju.

Priporočljivo je, da uporabniki v svoje poteke dela vključijo podobne prakse testiranja. Z ustvarjanjem nabora pozivov, spremnih besedil in pričakovanih rezultatov lahko uporabniki redno preverjajo skladnost med svojimi pričakovanji in odzivi modela. Takoj ko se odkrijejo kakršna koli odstopanja, je mogoče sprejeti ustrezne ukrepe za odpravo stanja.

Preberite več o AI:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Hot Stories
Pridružite se našemu glasilu.
Zadnje novice

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Nexo začne 'lov' za nagrajevanje uporabnikov z 12 milijoni $ v žetonih NEXO za sodelovanje z njegovim ekosistemom
Prisotnost Novice Tehnologija
Nexo začne 'lov' za nagrajevanje uporabnikov z 12 milijoni $ v žetonih NEXO za sodelovanje z njegovim ekosistemom
Maj 8, 2024
Revolutova borza Revolut X navdušuje kripto trgovce z ničelnimi provizijami in napredno analitiko
Prisotnost Software Zgodbe in ocene Tehnologija
Revolutova borza Revolut X navdušuje kripto trgovce z ničelnimi provizijami in napredno analitiko
Maj 8, 2024
Platforma za kripto trgovanje BitMEX prvič trguje z opcijami z 0 provizijami in denarnimi spodbudami
ŽELITE POSTATI PARTNER Prisotnost Novice
Platforma za kripto trgovanje BitMEX prvič trguje z opcijami z 0 provizijami in denarnimi spodbudami
Maj 8, 2024
Lisk uradno prehaja na Ethereum Layer 2 in razkriva Core v4.0.6
Novice Tehnologija
Lisk uradno prehaja na Ethereum Layer 2 in razkriva Core v4.0.6
Maj 8, 2024
CRYPTOMERIA LABS PTE. LTD.