Juli 20, 2023

Stanfords studie bekräftar GPT-4 Blir dummare

Publicerad: 20 juli 2023 kl. 10 Uppdaterad: 19 juli 20 kl. 2023

Redigerad och faktagranskad: 20 juli 2023 kl. 10

I korthet

En studie av Matei Zaharia och hans team från Stanford och UC Berkeley jämförde prestandan för GPT-4 och ChatGPT för att ta itu med användarnas oro över modellens effektivitet.

Studien utvärderade modellerna på fyra specifika uppgifter: matematik, kodning, känslighet och visuellt resonemang.

Matei Zaharia och hans team från Stanford och UC Berkeley genomförde en studie som jämförde prestandan för GPT-4 till ChatGPT. Denna undersökning försökte ta itu med användarnas oro för att modellens effektivitet hade minskat.

Stanfords studie bekräftar GPT-4 Blir dummare — Credit: Metaverse Post

Relaterad: GPT-4 vs GPT-3: Vad har den nya modellen att erbjuda?

Forskarna utformade studien för att utvärdera modellerna på fyra specifika uppgifter. Dessa uppgifter inkluderade:

Matematik: Modellens förmåga att avgöra om ett givet tal är primtal eller sammansatt.
Kodning: Bedömning av modellens förmåga att generera meningsfull och funktionell kod.
Känslighet: Analysera modellens svar på frågor med potentiellt "giftigt" innehåll.
Visuella resonemang: Testa modellens förmåga att lösa problem som involverar visuella mönster med hjälp av ARC-riktmärket. Deltagarna var tvungna att identifiera mönster i en uppsättning bilder och tillämpa dem för att lösa ett nytt exempel.

Inom matematikområdet, båda GPT-4 versionerna, mars- och juniutgåvorna, visade konsekvent noggrannhet vid bestämning av primtal och sammansatta tal. Modellerna visade skicklighet i att hantera dessa beräkningar, vilket gav tillförlitliga resultat.

Går vidare till kodning, GPT-4 uppvisade en förbättrad förmåga att generera meningsfull och funktionell kod jämfört med sina föregångare. Modellens kodgenereringsmöjligheter visade lovande och gav potentiella fördelar för utvecklare och programmerare.

När det gäller känslighet bedömde studien modellernas svar på frågor som innehåller potentiellt skadligt eller stötande innehåll. GPT-4 visade förbättrad känslighetsanalys och visade en förbättrad förmåga att ge lämpliga svar i sådana sammanhang. Detta innebär ett positivt steg framåt för att ta itu med användarnas oro över potentiellt problematiska utdata.

Slutligen slutfördes de visuella resonemangsuppgifterna baserade på ARC-riktmärket framgångsrikt av båda GPT-4 versioner. Modellerna identifierade effektivt mönster inom bilduppsättningar och visade en förmåga att tillämpa dessa mönster för att lösa nya exempel. Detta visar deras förmåga till visuell förståelse och resonemang.

Resultaten tyder på det GPT-4 uppvisade en minskning i noggrannhet, med bara lite över 2 % av korrekta svar. Det är viktigt att notera att just detta test i första hand bedömer modellens förmåga att återkalla data snarare än att visa upp dess inneboende matematiska förmågor. Uppgiften kretsar kring minneshämtning, eftersom modellen saknar förmågan för beräkningsvalidering och slutledning, särskilt när det gäller primtal.

ChatGPT uppvisade en betydande tillväxt i prestandamått i juni, vilket visade upp en anmärkningsvärd förbättring på över tiofaldig. Även om studien inte fördjupade sig i de specifika faktorer som bidrar till denna förbättring, belyser den ChatGPTs framsteg inom matematiska resonemang och problemlösningsförmåga.

Studien bedömde inte kvaliteten eller riktigheten av den genererade koden. Istället verkade modellerna uppvisa ett mer "anpassat" beteende och erbjuder kodavsnitt utan att säkerställa deras funktionella noggrannhet.

Relaterad: 10+ bästa AI Photo Enhancers 2023

Kvaliteten på GPT-4 och ChatGPT har ifrågasatts efter en analys av deras programmeringsförmåga. Men en närmare titt avslöjar några fascinerande nyanser som motsäger det första intrycket.

Författarna exekverade inte eller verifierade inte koden för korrekthet; deras bedömning baserades enbart på dess giltighet som Python-kod. Dessutom verkade modellerna ha lärt sig en specifik kodinramningsteknik med hjälp av en dekorator, vilket oavsiktligt hindrade kodexekvering.

Som ett resultat blir det uppenbart att varken resultaten eller själva experimentet kan betraktas som bevis på modellnedbrytning. Istället visar modellerna ett annat tillvägagångssätt för att generera svar, vilket potentiellt återspeglar variationer i deras träning.

En undersökning av programmerings- och matematiska förmågor hos GPT-4 och ChatGPT har belyst intressanta fynd. I motsats till initiala antaganden visade modellerna anmärkningsvärda förbättringar på vissa områden samtidigt som de uppvisade beteendeförändringar på andra.

När det gäller programmeringsuppgifter visade båda modellerna en minskning i att svara på "fel" uppmaningar, med GPT-4 uppvisar en mer än fyrfaldig minskning i sådana fall. Dessutom, på uppgiften Visual Reasoning, förbättrades kvaliteten på svaren med ett par procentenheter för båda modellerna. Dessa observationer indikerar framsteg snarare än försämring av prestanda.

Men bedömningen av matematiska färdigheter introducerar ett spännande inslag. Modellerna gav konsekvent primtal som svar, vilket indikerar ett konsekvent "ja"-svar. Men när de introducerade sammansatta siffror i urvalet blev det uppenbart att modellerna ändrade sitt beteende och började ge "nej" svar, vilket tyder på osäkerhet snarare än en kvalitetsförsämring. Själva testet är säreget och ensidigt, och dess resultat kan tillskrivas förändringar i modellbeteende snarare än en försämring i kvalitet.

Det är viktigt att notera att API-versionerna testades och inte de webbläsarbaserade versionerna. Även om det är möjligt att modellerna i webbläsaren genomgick justeringar för att optimera resurser, gör inte den bifogade studien det defibevisa denna hypotes. Effekten av sådana skift kan vara jämförbar med faktiska modellnedgraderingar, vilket leder till potentiella utmaningar för användare som förlitar sig på specifikt arbete prompter och samlad erfarenhet.

I fallet med GPT-4 API-applikationer kan dessa avvikelser i beteende få påtagliga konsekvenser. Kod som tagits fram utifrån en specifik användares behov och uppgifter kanske inte längre fungerar som avsett om modellen genomgår förändringar i sitt beteende.

Det rekommenderas att användare införlivar liknande testmetoder i sina arbetsflöden. Genom att skapa en uppsättning uppmaningar, medföljande texter och förväntade resultat kan användare regelbundet kontrollera att deras förväntningar stämmer överens och modellens svar. Så snart eventuella avvikelser upptäcks kan lämpliga åtgärder vidtas för att åtgärda situationen.

Läs mer om AI:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov