GPT-4 utklassar GPT-3.5 Över hela linjen på en mängd olika riktmärken för studier
I korthet
Smakämnen GPT-4 har uppnått en högre betygströskel än GPT-3.5 på en mängd olika riktmärken.
Detta är en stor prestation eftersom det visar att maskiner inte bara är kapabla till mänsklig intelligens utan också kan överträffa oss, vilket väcker frågor om framtiden för AI och dess potentiella inverkan på arbetsmarknaden.
GPT-4 överträffas avsevärt av state-of-the-art (SOTA) modeller, inklusive de som använder ytterligare träningsprotokoll eller benchmark-specifik design, såväl som befintliga stora språkmodeller.
Smakämnen GPT-4 har uppnått högre poäng än GPT-3.5 på en mängd olika riktmärken. Detta är ett stort genombrott för maskiner eftersom det bevisar att de nu inte bara kan lösa problem som ursprungligen är designade för utan också kan göra det bättre än universitetsstudenter.
Det finns några saker att ta hänsyn till när du tittar på det här resultatet. För det första GPT-4 fick ingen specifik utbildning för dessa prov. Det fortsatte genom att använda de senaste allmänt tillgängliga testerna (i fallet med olympiaderna och AP-frågor med fria svar) eller genom att köpa 2022–2023-utgåvorna av övningsprov. För det andra är det viktigt att notera att GPT-4s prestanda kanske inte nödvändigtvis återspeglar förmågan hos mänskliga testtagare, eftersom den fungerar på en annan uppsättning principer och algoritmer.
Detta är en stor bedrift som det syns att maskiner inte bara är kapabla till människoliknande intelligens utan också kan överträffa oss. Detta banar väg för en framtid där maskiner kan ta sig an allt mer komplexa uppgifter, vilket i slutändan leder till en framtid där de kan hjälpa oss i vår vardag.
GPT-4, till exempel, klarar ett simulerat prov med ett betyg bland de 10 % bästa av testdeltagarna; GPT-3.5:s poäng var i de lägsta 10 %. Denna betydande förbättring av GPT-4s prestanda beror på dess större träningsdata och förbättrade arkitektur. Det förväntas ha ett brett utbud av tillämpningar inom olika områden, inklusive naturlig språkbehandling och automatiserat skrivande.
Majoriteten av toppmoderna (SOTA) modeller, inklusive de som kan använda ytterligare träningsprotokoll eller benchmark-specifik design, såväl som befintliga stora språkmodeller, överträffas betydligt av GPT-4.
Internt har utvecklare använt sig av GPT-4, vilket har haft en betydande inverkan på aktiviteter som programmering, försäljning, support och innehållsmoderering. Det andra steget av vår anpassningsmetod är nu på gång eftersom utvecklare använder den för att hjälpa människor att granska AI-resultat.
MMLU (Massive Multi-Task Language Understanding) dataset innehåller frågor från ett mycket brett spektrum av ämnen om språkförståelse i olika uppgifter (som spänner över 57 domäner, inklusive matematik, biologi, juridik, samhälls- och humanvetenskap, etc.). Det finns fyra möjliga svar på frågan, varav ett är korrekt. Det vill säga, slumpmässig gissning visar ett resultat av 25% korrekta svar. Se bilden nedan för exempel på frågor och deras svårigheter. Den genomsnittliga personmarkören (det vill säga det här är inte en vetenskapsman, inte en professor – en vanlig person som moonlights som en markering) svarar korrekt på 35 % av frågorna; dock kan experterna nå en poäng på +/- 90 %.
Ursprungligen var hela datasetet på engelska. Men vad händer om frågor och svar översätts till andra språk, särskilt mindre vanliga? Kommer modellen att fungera för dem på något sätt? I det här testet användes Microsoft Azure Translate-tjänsten för översättning. Översättningar är inte perfekta; i vissa fall går viktig information förlorad. Men även i detta fall GPT-4 fungerar bra på andra språk. I de översatta versionerna av MMLU, GPT-4 överträffar engelska nivån för andra stora modeller (inklusive Googles) med 24 av de 26 undersökta språken.
Vad mer, GPT-4 presterar bättre på sällsynta språk än ChatGPT gjorde på engelska (ChatGPT uppnådde en poäng på 70.1%, medan den nya modellens poäng för thailändska var 71.8%. Poängen för provet i engelska var högst, med GPT-4 presterar 10 % bättre än andra modeller, inklusive den största PaLM från Google. Den uppnådde en poäng på 86.4 %, medan en grupp experter — 90 %.
- Till sommaren 2023 kan AI ha nått en ny nivå av kraft tack vare ChatGPT, en chatbot som använder GPT-4 algoritm och utklassar GPT-3 med en faktor på 570. En mängd olika element bidrar till ChatGPTframgång, inklusive dess design för att vara mer "mänsklig" och dess användning av banbrytande datautvinning och naturlig språkbehandling för att öka dess effektivitet och precision.
- Microsoft och OpenAI tillkännagav deras förnyelse av samarbetet och planerar för Bing-sökning att anta AI-förbättrade uppslagsfunktioner i januari. Den mycket sofistikerade GPT3.5-modellens ersättning, GPT4, har precis lanserats, och det har potential att avsevärt förbättra Bing-söknings förmåga att förstå frågor på naturligt språk och leverera mer exakta resultat. Det är en bra idé att ha en bra backupplan om något skulle gå fel.
Läs fler relaterade nyheter:
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.
fler artiklarDamir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.