Juuli 20, 2023

Stanfordi uuring kinnitab GPT-4 Läheb lollimaks

Avaldatud: 20. juulil 2023 kell 10:19 Värskendatud: 20. juulil 2023 kell 10:20

Muudetud ja faktidega kontrollitud: 20. juuli 2023 kell 10:19

Põgusalt

Matei Zaharia ja tema Stanfordi ja UC Berkeley meeskonna tehtud uuringus võrreldi tulemuslikkust GPT-4 ja ChatGPT et lahendada kasutajate mured mudeli tõhususe pärast.

Uuringus hinnati mudeleid nelja konkreetse ülesande alusel: matemaatika, kodeerimine, tundlikkus ja visuaalne arutluskäik.

Matei Zaharia ja tema meeskond Stanfordist ja UC Berkeleyst viis läbi uuringu mis võrreldi toimivust GPT-4 et ChatGPT. Selle uurimise eesmärk oli lahendada kasutajate mure, et mudeli tõhusus on vähenenud.

Stanfordi uuring kinnitab GPT-4 Läheb lollimaks — krediit: Metaverse Post

seotud: GPT-4 vs GPT-3: Mida on uuel mudelil pakkuda?

Teadlased kavandasid uuringu mudelite hindamiseks nelja konkreetse ülesande jaoks. Nende ülesannete hulka kuulusid:

Matemaatika: mudeli võime määrata, kas antud arv on alg- või liitarv.
Kodeerimine: mudeli suutlikkuse hindamine luua tähenduslikku ja funktsionaalset koodi.
Tundlikkus: mudeli vastuste analüüsimine potentsiaalselt "toksilise" sisuga küsimustele.
Visuaalne arutluskäik: mudeli sobivuse testimine visuaalsete mustritega seotud probleemide lahendamiseks, kasutades ARC-i etaloni. Osalejad pidid tuvastama piltide komplekti mustrid ja rakendama neid uue näite lahendamiseks.

Matemaatika vallas nii GPT-4 versioonid, märtsi ja juuni väljaanded, näitasid alg- ja liitarvude määramisel ühtlast täpsust. Mudelid näitasid nende arvutuste haldamise oskust, andes usaldusväärseid tulemusi.

Kodeerimise juurde liikudes, GPT-4 näitas oma eelkäijatega võrreldes paremat võimet genereerida mõtestatud ja funktsionaalset koodi. Mudeli koodi genereerimise võimalused näitasid paljulubavust, pakkudes potentsiaalseid eeliseid arendajatele ja programmeerijatele.

Tundlikkuse osas hinnati uuringus mudelite vastuseid küsimustele, mis sisaldasid potentsiaalselt kahjulikku või solvavat sisu. GPT-4 näitas täiustatud tundlikkuse analüüsi ja näitas paremat võimet anda sellistes kontekstides sobivaid vastuseid. See tähendab positiivset sammu edasi kasutajate murede lahendamisel potentsiaalselt probleemsete väljundite pärast.

Lõpuks täitsid mõlemad edukalt ARC võrdlusalusel põhinevad visuaalse mõtlemise ülesanded GPT-4 versioonid. Mudelid tuvastasid tõhusalt pildikomplektide mustrid ja näitasid võimet rakendada neid mustreid uute näidete lahendamiseks. See näitab nende visuaalset mõistmise ja arutlemise võimet.

Tulemused näitavad, et GPT-4 täpsus vähenes, õigeid vastuseid oli vaid veidi üle 2%. Oluline on märkida, et see konkreetne test hindab peamiselt mudeli võimet andmeid meelde tuletada, selle asemel et näidata selle loomupäraseid matemaatilisi võimeid. Ülesanne keerleb mälu meeldetuletamise ümber, kuna mudelil puudub arvutuste valideerimise ja järelduste tegemise võimalus, eriti kui tegemist on algarvudega.

ChatGPT juuniks näitasid jõudlusnäitajad märkimisväärset kasvu, mis näitab märkimisväärset, enam kui kümnekordset paranemist. Kuigi uuring ei süvenenud konkreetsetesse teguritesse, mis seda täiustamist soodustavad, rõhutatakse selles ChatGPT's edasiminek matemaatilises mõtlemises ja probleemide lahendamise oskustes.

Uuringus ei hinnatud loodud koodi kvaliteeti ega õigsust. Selle asemel näis mudelitel olevat rohkem "kohandatud" käitumine, pakkudes koodilõike ilma nende funktsionaalset täpsust tagamata.

seotud: 10. aasta 2023+ parimat tehisintellekti fotoparandajat

Kvaliteediga GPT-4 ja ChatGPT on küsitletud pärast nende programmeerimisoskuste analüüsi. Lähemal vaatlusel ilmnevad aga põnevad nüansid, mis on esmamuljega vastuolus.

Autorid ei täitnud ega kontrollinud koodi õigsust; nende hinnang põhines ainult selle kehtivusel Pythoni koodina. Lisaks näis, et mudelid õppisid dekoraatori abil spetsiifilist koodiraamimistehnikat, mis tahtmatult takistas koodi täitmist.

Selle tulemusena selgub, et tulemusi ega katset ennast ei saa pidada mudeli halvenemise tõendiks. Selle asemel näitavad mudelid erinevat lähenemist vastuste genereerimisele, mis võib kajastada nende koolituse erinevusi.

Programmeerimis- ja matemaatikaoskuste kontroll GPT-4 ja ChatGPT on valgustanud huvitavaid leide. Vastupidiselt esialgsetele eeldustele näitasid mudelid teatud valdkondades märkimisväärset paranemist, samas kui teistes muutusid käitumises.

Programmeerimisülesannete osas näitasid mõlemad mudelid "valetele" viipadele reageerimise vähenemist GPT-4 sellistel juhtudel väheneb enam kui neli korda. Lisaks paranes visuaalse arutluskäigu ülesande puhul mõlema mudeli vastuste kvaliteet paari protsendipunkti võrra. Need tähelepanekud näitavad pigem edusamme kui jõudluse halvenemist.

Matemaatiliste oskuste hindamine toob aga kaasa intrigeeriva elemendi. Mudelid esitasid vastustena järjekindlalt algarvud, mis näitavad järjekindlat jah-vastust. Kuid liitarvude valimisse lisamisel ilmnes, et mudelid muutsid oma käitumist ja hakkasid andma "ei" vastuseid, mis viitab pigem ebakindlusele kui kvaliteedi langusele. Test ise on omapärane ja ühekülgneja selle tulemusi võib seostada pigem muutustega mudeli käitumises kui kvaliteedi langusega.

Oluline on märkida, et testiti API versioone, mitte brauseripõhiseid versioone. Kuigi on võimalik, et brauseris olevaid mudeleid kohandati ressursside optimeerimiseks, siis lisatud uuring seda ei tee defitõestada seda hüpoteesi. Selliste nihete mõju võib olla võrreldav mudeli tegeliku alandamisega, mis toob kaasa potentsiaalseid väljakutseid kasutajatele, kes sõltuvad konkreetsest tööst. küsib ja kogunenud kogemusi.

Juhul kui GPT-4 API-rakenduste puhul võivad need kõrvalekalded käitumises omada käegakatsutavaid tagajärgi. Kood, mis töötati välja konkreetse kasutaja vajadustest ja ülesannetest lähtuvalt, ei pruugi enam nii nagu ette nähtud, kui mudeli käitumine muutub.

Soovitatav on kasutajatel lisada oma töövoogudesse sarnased testimistavad. Luues viipade, kaasnevate tekstide ja oodatavate tulemuste komplekti, saavad kasutajad regulaarselt kontrollida oma ootuste ja mudeli vastuste järjepidevust. Niipea kui kõrvalekalded avastatakse, saab olukorra parandamiseks võtta asjakohaseid meetmeid.

Loe AI kohta lähemalt:

Sildid:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.

Veel artikleid

Damir Jalalov