Stanfords undersøgelse bekræfter GPT-4 Er ved at blive dummere
Kort sagt
En undersøgelse foretaget af Matei Zaharia og hans team fra Stanford og UC Berkeley sammenlignede præstationen af GPT-4 , ChatGPT for at imødekomme brugernes bekymringer om modellens effektivitet.
Undersøgelsen evaluerede modellerne på fire specifikke opgaver: matematik, kodning, følsomhed og visuel ræsonnement.
Matei Zaharia og hans team fra Stanford og UC Berkeley gennemført en undersøgelse der sammenlignede ydeevnen af GPT-4 til ChatGPT. Denne undersøgelse søgte at adressere brugernes bekymringer om, at modellens effektivitet var faldet.
Forskerne designede undersøgelsen til at evaluere modellerne på fire specifikke opgaver. Disse opgaver omfattede:
- Matematik: Modellens evne til at bestemme, om et givet tal er primtal eller sammensat.
- Kodning: Vurdering af modellens evne til at generere meningsfuld og funktionel kode.
- Sensitivitet: Analyse af modellens svar på spørgsmål med potentielt "giftigt" indhold.
- Visuel begrundelse: Test af modellens evne til at løse problemer, der involverer visuelle mønstre, ved hjælp af ARC-benchmark. Deltagerne skulle identificere mønstre i et sæt billeder og anvende dem til at løse et nyt eksempel.
Inden for matematik, begge dele GPT-4 versioner, marts og juni-udgivelserne, viste konsekvent nøjagtighed ved bestemmelse af primtal og sammensatte tal. Modellerne viste dygtighed til at håndtere disse beregninger, hvilket gav pålidelige resultater.
Går videre til kodning, GPT-4 udvist en forbedret evne til at generere meningsfuld og funktionel kode sammenlignet med sine forgængere. Modellens kodegenereringsfunktioner viste lovende og gav potentielle fordele for udviklere og programmører.
Med hensyn til følsomhed vurderede undersøgelsen modellernes svar på spørgsmål, der indeholdt potentielt skadeligt eller stødende indhold. GPT-4 demonstrerede forbedret følsomhedsanalyse og viste en forbedret evne til at give passende svar i sådanne sammenhænge. Dette betyder et positivt skridt fremad med hensyn til at imødegå brugernes bekymringer om potentielt problematiske output.
Endelig blev de visuelle ræsonnementopgaver baseret på ARC-benchmark gennemført med succes af begge GPT-4 versioner. Modellerne identificerede effektivt mønstre i billedsæt og demonstrerede en evne til at anvende disse mønstre til at løse nye eksempler. Dette viser deres evne til visuel forståelse og ræsonnement.
ChatGPT demonstrerede en betydelig vækst i præstationsmålinger i juni, hvilket viste en bemærkelsesværdig forbedring på mere end det tifold. Mens undersøgelsen ikke dykkede ned i de specifikke faktorer, der bidrager til denne forbedring, fremhæver den ChatGPT's fremskridt inden for matematisk ræsonnement og problemløsningsevner.
Relaterede: 10+ bedste AI Photo Enhancers i 2023 |
Kvaliteten af GPT-4 , ChatGPT er blevet afhørt efter en analyse af deres programmeringsevner. Et nærmere kig afslører dog nogle fascinerende nuancer, der modsiger det første indtryk.
Forfatterne udførte eller verificerede ikke koden for korrekthed; deres vurdering var udelukkende baseret på dens gyldighed som Python-kode. Derudover så modellerne ud til at have lært en specifik kodeindramningsteknik ved hjælp af en dekorator, hvilket utilsigtet forhindrede kodeudførelse.
Som et resultat bliver det tydeligt, at hverken resultaterne eller selve eksperimentet kan betragtes som bevis på modelnedbrydning. I stedet demonstrerer modellerne en anden tilgang til at generere svar, hvilket potentielt afspejler variationer i deres træning.
Når det kommer til programmeringsopgaver, viste begge modeller et fald i at reagere på "forkerte" prompter, med GPT-4 udviser en mere end fire gange reduktion i sådanne tilfælde. Derudover forbedredes kvaliteten af svarene med et par procentpoint for begge modeller i forbindelse med opgaven Visual Reasoning. Disse observationer indikerer fremskridt snarere end forringelse af ydeevnen.
Men vurderingen af matematiske færdigheder introducerer et spændende element. Modellerne gav konsekvent primtal som svar, hvilket indikerer et konsekvent "ja"-svar. Men efter at have introduceret sammensatte tal til stikprøven, blev det tydeligt, at modellerne ændrede deres adfærd og begyndte at give "nej"-svar, hvilket tyder på usikkerhed snarere end et fald i kvalitet. Selve testen er ejendommelig og ensidig, og dets resultater kan tilskrives skift i modeladfærd snarere end et fald i kvalitet.
Det er vigtigt at bemærke, at API-versionerne blev testet, og ikke de browserbaserede versioner. Selvom det er muligt, at modellerne i browseren undergik justeringer for at optimere ressourcerne, gør den vedhæftede undersøgelse det ikke defibevise denne hypotese. Virkningen af sådanne skift kan sammenlignes med faktiske modelnedgraderinger, hvilket fører til potentielle udfordringer for brugere, der er afhængige af specifik arbejde prompter og akkumuleret erfaring.
I tilfælde af GPT-4 API-applikationer, kan disse afvigelser i adfærd have håndgribelige konsekvenser. Kode, der er udviklet ud fra en specifik brugers behov og opgaver, fungerer muligvis ikke længere efter hensigten, hvis modellen undergår ændringer i sin adfærd.
Det anbefales, at brugere inkorporerer lignende testpraksis i deres arbejdsgange. Ved at oprette et sæt meddelelser, ledsagende tekster og forventede resultater, kan brugerne jævnligt tjekke for overensstemmelse mellem deres forventninger og modellens svar. Så snart eventuelle afvigelser opdages, kan der træffes passende foranstaltninger for at rette op på situationen.
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.