Nyheds rapport Teknologier
Juli 20, 2023

Stanfords undersøgelse bekræfter GPT-4 Er ved at blive dummere

Kort sagt

En undersøgelse foretaget af Matei Zaharia og hans team fra Stanford og UC Berkeley sammenlignede præstationen af GPT-4 , ChatGPT for at imødekomme brugernes bekymringer om modellens effektivitet.

Undersøgelsen evaluerede modellerne på fire specifikke opgaver: matematik, kodning, følsomhed og visuel ræsonnement.

Matei Zaharia og hans team fra Stanford og UC Berkeley gennemført en undersøgelse der sammenlignede ydeevnen af GPT-4 til ChatGPT. Denne undersøgelse søgte at adressere brugernes bekymringer om, at modellens effektivitet var faldet.

Stanfords undersøgelse bekræfter GPT-4 Er ved at blive dummere
Credit: Metaverse Post
Relaterede: GPT-4 vs GPT-3: Hvad har den nye model at tilbyde?

Forskerne designede undersøgelsen til at evaluere modellerne på fire specifikke opgaver. Disse opgaver omfattede:

  • Matematik: Modellens evne til at bestemme, om et givet tal er primtal eller sammensat.
  • Kodning: Vurdering af modellens evne til at generere meningsfuld og funktionel kode.
  • Sensitivitet: Analyse af modellens svar på spørgsmål med potentielt "giftigt" indhold.
  • Visuel begrundelse: Test af modellens evne til at løse problemer, der involverer visuelle mønstre, ved hjælp af ARC-benchmark. Deltagerne skulle identificere mønstre i et sæt billeder og anvende dem til at løse et nyt eksempel.

Inden for matematik, begge dele GPT-4 versioner, marts og juni-udgivelserne, viste konsekvent nøjagtighed ved bestemmelse af primtal og sammensatte tal. Modellerne viste dygtighed til at håndtere disse beregninger, hvilket gav pålidelige resultater.

Går videre til kodning, GPT-4 udvist en forbedret evne til at generere meningsfuld og funktionel kode sammenlignet med sine forgængere. Modellens kodegenereringsfunktioner viste lovende og gav potentielle fordele for udviklere og programmører.

Med hensyn til følsomhed vurderede undersøgelsen modellernes svar på spørgsmål, der indeholdt potentielt skadeligt eller stødende indhold. GPT-4 demonstrerede forbedret følsomhedsanalyse og viste en forbedret evne til at give passende svar i sådanne sammenhænge. Dette betyder et positivt skridt fremad med hensyn til at imødegå brugernes bekymringer om potentielt problematiske output.

Endelig blev de visuelle ræsonnementopgaver baseret på ARC-benchmark gennemført med succes af begge GPT-4 versioner. Modellerne identificerede effektivt mønstre i billedsæt og demonstrerede en evne til at anvende disse mønstre til at løse nye eksempler. Dette viser deres evne til visuel forståelse og ræsonnement.

Resultaterne indikerer det GPT-4 udviste et fald i nøjagtighed, med kun lidt over 2% af de rigtige svar. Det er vigtigt at bemærke, at denne særlige test primært vurderer modellens evne til at genkalde data frem for at fremvise dens iboende matematiske evner. Opgaven drejer sig om hukommelsesgenkaldelse, da modellen mangler evnen til beregningsvalidering og inferens, især når det kommer til primtal.

ChatGPT demonstrerede en betydelig vækst i præstationsmålinger i juni, hvilket viste en bemærkelsesværdig forbedring på mere end det tifold. Mens undersøgelsen ikke dykkede ned i de specifikke faktorer, der bidrager til denne forbedring, fremhæver den ChatGPT's fremskridt inden for matematisk ræsonnement og problemløsningsevner.

Undersøgelsen vurderede ikke kvaliteten eller rigtigheden af ​​den genererede kode. I stedet så modellerne ud til at udvise en mere "brugerdefineret" adfærd, der tilbyder kodestykker uden at sikre deres funktionelle nøjagtighed.
Relaterede: 10+ bedste AI Photo Enhancers i 2023

Kvaliteten af GPT-4 , ChatGPT er blevet afhørt efter en analyse af deres programmeringsevner. Et nærmere kig afslører dog nogle fascinerende nuancer, der modsiger det første indtryk.

Forfatterne udførte eller verificerede ikke koden for korrekthed; deres vurdering var udelukkende baseret på dens gyldighed som Python-kode. Derudover så modellerne ud til at have lært en specifik kodeindramningsteknik ved hjælp af en dekorator, hvilket utilsigtet forhindrede kodeudførelse.

Som et resultat bliver det tydeligt, at hverken resultaterne eller selve eksperimentet kan betragtes som bevis på modelnedbrydning. I stedet demonstrerer modellerne en anden tilgang til at generere svar, hvilket potentielt afspejler variationer i deres træning.

En undersøgelse af programmerings- og matematiske evner GPT-4 , ChatGPT har belyst interessante fund. I modsætning til de oprindelige antagelser viste modellerne bemærkelsesværdige forbedringer på visse områder, mens de udviste adfærdsændringer på andre.

Når det kommer til programmeringsopgaver, viste begge modeller et fald i at reagere på "forkerte" prompter, med GPT-4 udviser en mere end fire gange reduktion i sådanne tilfælde. Derudover forbedredes kvaliteten af ​​svarene med et par procentpoint for begge modeller i forbindelse med opgaven Visual Reasoning. Disse observationer indikerer fremskridt snarere end forringelse af ydeevnen.

Men vurderingen af ​​matematiske færdigheder introducerer et spændende element. Modellerne gav konsekvent primtal som svar, hvilket indikerer et konsekvent "ja"-svar. Men efter at have introduceret sammensatte tal til stikprøven, blev det tydeligt, at modellerne ændrede deres adfærd og begyndte at give "nej"-svar, hvilket tyder på usikkerhed snarere end et fald i kvalitet. Selve testen er ejendommelig og ensidig, og dets resultater kan tilskrives skift i modeladfærd snarere end et fald i kvalitet.

Det er vigtigt at bemærke, at API-versionerne blev testet, og ikke de browserbaserede versioner. Selvom det er muligt, at modellerne i browseren undergik justeringer for at optimere ressourcerne, gør den vedhæftede undersøgelse det ikke defibevise denne hypotese. Virkningen af ​​sådanne skift kan sammenlignes med faktiske modelnedgraderinger, hvilket fører til potentielle udfordringer for brugere, der er afhængige af specifik arbejde prompter og akkumuleret erfaring.

I tilfælde af GPT-4 API-applikationer, kan disse afvigelser i adfærd have håndgribelige konsekvenser. Kode, der er udviklet ud fra en specifik brugers behov og opgaver, fungerer muligvis ikke længere efter hensigten, hvis modellen undergår ændringer i sin adfærd.

Det anbefales, at brugere inkorporerer lignende testpraksis i deres arbejdsgange. Ved at oprette et sæt meddelelser, ledsagende tekster og forventede resultater, kan brugerne jævnligt tjekke for overensstemmelse mellem deres forventninger og modellens svar. Så snart eventuelle afvigelser opdages, kan der træffes passende foranstaltninger for at rette op på situationen.

Læs mere om AI:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Institutionel appetit vokser mod Bitcoin ETF'er midt i volatilitet

Afsløringer gennem 13F-arkivering afslører bemærkelsesværdige institutionelle investorer, der dytter i Bitcoin ETF'er, hvilket understreger en voksende accept af ...

Vide mere

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
BLOCKCHANCE og CONF3RENCE forenes for Tysklands største Web3 Konference i Dortmund
Forretning Markeder Software Historier og anmeldelser Teknologier
BLOCKCHANCE og CONF3RENCE forenes for Tysklands største Web3 Konference i Dortmund
Maj 9, 2024
NuLink lancerer på Bybit Web3 IDO platform. Abonnementsfasen forlænges til 13. maj
Markeder Nyheds rapport Teknologier
NuLink lancerer på Bybit Web3 IDO platform. Abonnementsfasen forlænges til 13. maj
Maj 9, 2024
UXLINK og Binance samarbejder om ny kampagne og tilbyder brugerne 20 millioner UXUY-point og Airdrop Belønninger
Markeder Nyheds rapport Teknologier
UXLINK og Binance samarbejder om ny kampagne og tilbyder brugerne 20 millioner UXUY-point og Airdrop Belønninger
Maj 9, 2024
Side Protocol lancerer incitamenteret testnet og introducerer Insider Point System, der gør det muligt for brugere at optjene SIDE Points
Markeder Nyheds rapport Teknologier
Side Protocol lancerer incitamenteret testnet og introducerer Insider Point System, der gør det muligt for brugere at optjene SIDE Points
Maj 9, 2024