Nyhetsrapport Teknologi
Mars 15, 2023

GPT-4 utklassar GPT-3.5 Över hela linjen på en mängd olika riktmärken för studier

I korthet

Smakämnen GPT-4 har uppnått en högre betygströskel än GPT-3.5 på en mängd olika riktmärken.

Detta är en stor prestation eftersom det visar att maskiner inte bara är kapabla till mänsklig intelligens utan också kan överträffa oss, vilket väcker frågor om framtiden för AI och dess potentiella inverkan på arbetsmarknaden.

GPT-4 överträffas avsevärt av state-of-the-art (SOTA) modeller, inklusive de som använder ytterligare träningsprotokoll eller benchmark-specifik design, såväl som befintliga stora språkmodeller.

Smakämnen GPT-4 har uppnått högre poäng än GPT-3.5 på en mängd olika riktmärken. Detta är ett stort genombrott för maskiner eftersom det bevisar att de nu inte bara kan lösa problem som ursprungligen är designade för utan också kan göra det bättre än universitetsstudenter.

GPT-4 utklassar GPT-3.5 över hela linjen på en mängd olika studieriktmärken

Det finns några saker att ta hänsyn till när du tittar på det här resultatet. För det första GPT-4 fick ingen specifik utbildning för dessa prov. Det fortsatte genom att använda de senaste allmänt tillgängliga testerna (i fallet med olympiaderna och AP-frågor med fria svar) eller genom att köpa 2022–2023-utgåvorna av övningsprov. För det andra är det viktigt att notera att GPT-4s prestanda kanske inte nödvändigtvis återspeglar förmågan hos mänskliga testtagare, eftersom den fungerar på en annan uppsättning principer och algoritmer.

Detta är en stor bedrift som det syns att maskiner inte bara är kapabla till människoliknande intelligens utan också kan överträffa oss. Detta banar väg för en framtid där maskiner kan ta sig an allt mer komplexa uppgifter, vilket i slutändan leder till en framtid där de kan hjälpa oss i vår vardag.

Smakämnen GPT-4s förmåga att överträffa människor i vissa uppgifter väcker frågor om framtiden för artificiell intelligens och dess potentiella inverkan på arbetsmarknaden. Det lyfter också fram behovet av fortsatt forskning och utveckling inom detta område för att säkerställa att AI används etiskt och ansvarsfullt.
Läs mer: 5+ mest förväntade text-till-bild AI-modeller från 2023

GPT-4, till exempel, klarar ett simulerat prov med ett betyg bland de 10 % bästa av testdeltagarna; GPT-3.5:s poäng var i de lägsta 10 %. Denna betydande förbättring av GPT-4s prestanda beror på dess större träningsdata och förbättrade arkitektur. Det förväntas ha ett brett utbud av tillämpningar inom olika områden, inklusive naturlig språkbehandling och automatiserat skrivande.

 
GPT-4 uppvisar prestationer på mänsklig nivå på majoriteten av dessa professionella och akademiska prov. Noterbart klarade den en simulerad version av Uniform Bar Examination med en poäng bland de 10 % bästa av testdeltagarna. Modellens kapacitet vid tentor verkar främst härröra från förträningsprocessen och påverkas inte nämnvärt av RLHF. På flervalsfrågor, både basen GPT-4 modellen och RLHF-modellen presterade lika bra i genomsnitt för utvecklarna av den testade examen.

Majoriteten av toppmoderna (SOTA) modeller, inklusive de som kan använda ytterligare träningsprotokoll eller benchmark-specifik design, såväl som befintliga stora språkmodeller, överträffas betydligt av GPT-4.

GPT-4s prestanda i termer av akademiska standarder. Utvecklare kontrasterar GPT-4 med bästa SOTA för ett LM-utvärderat fåskott samt bästa SOTA med benchmark-specifik träning. Med undantag för DROP, GPT-4 överträffar alla nuvarande LMs på alla benchmarks och SOTA med benchmark-specifik utbildning.

Internt har utvecklare använt sig av GPT-4, vilket har haft en betydande inverkan på aktiviteter som programmering, försäljning, support och innehållsmoderering. Det andra steget av vår anpassningsmetod är nu på gång eftersom utvecklare använder den för att hjälpa människor att granska AI-resultat.

MMLU (Massive Multi-Task Language Understanding) dataset innehåller frågor från ett mycket brett spektrum av ämnen om språkförståelse i olika uppgifter (som spänner över 57 domäner, inklusive matematik, biologi, juridik, samhälls- och humanvetenskap, etc.). Det finns fyra möjliga svar på frågan, varav ett är korrekt. Det vill säga, slumpmässig gissning visar ett resultat av 25% korrekta svar. Se bilden nedan för exempel på frågor och deras svårigheter. Den genomsnittliga personmarkören (det vill säga det här är inte en vetenskapsman, inte en professor – en vanlig person som moonlights som en markering) svarar korrekt på 35 % av frågorna; dock kan experterna nå en poäng på +/- 90 %.

Prestanda av GPT-4 på en rad olika språk jämfört med tidigare modeller på engelska på MMLU. GPT-4 överträffar den engelskspråkiga prestandan för befintliga språkmodeller för den stora majoriteten av de undersökta språken, inklusive lågresursspråk som lettiska, walesiska och swahili.
Läs mer: 5 skäl att använda AI-driven Bing över Google

Ursprungligen var hela datasetet på engelska. Men vad händer om frågor och svar översätts till andra språk, särskilt mindre vanliga? Kommer modellen att fungera för dem på något sätt? I det här testet användes Microsoft Azure Translate-tjänsten för översättning. Översättningar är inte perfekta; i vissa fall går viktig information förlorad. Men även i detta fall GPT-4 fungerar bra på andra språk. I de översatta versionerna av MMLU, GPT-4 överträffar engelska nivån för andra stora modeller (inklusive Googles) med 24 av de 26 undersökta språken.

Vad mer, GPT-4 presterar bättre på sällsynta språk än ChatGPT gjorde på engelska (ChatGPT uppnådde en poäng på 70.1%, medan den nya modellens poäng för thailändska var 71.8%. Poängen för provet i engelska var högst, med GPT-4 presterar 10 % bättre än andra modeller, inklusive den största PaLM från Google. Den uppnådde en poäng på 86.4 %, medan en grupp experter — 90 %.

  • Till sommaren 2023 kan AI ha nått en ny nivå av kraft tack vare ChatGPT, en chatbot som använder GPT-4 algoritm och utklassar GPT-3 med en faktor på 570. En mängd olika element bidrar till ChatGPTframgång, inklusive dess design för att vara mer "mänsklig" och dess användning av banbrytande datautvinning och naturlig språkbehandling för att öka dess effektivitet och precision.
  • Microsoft och OpenAI tillkännagav deras förnyelse av samarbetet och planerar för Bing-sökning att anta AI-förbättrade uppslagsfunktioner i januari. Den mycket sofistikerade GPT3.5-modellens ersättning, GPT4, har precis lanserats, och det har potential att avsevärt förbättra Bing-söknings förmåga att förstå frågor på naturligt språk och leverera mer exakta resultat. Det är en bra idé att ha en bra backupplan om något skulle gå fel.

Läs fler relaterade nyheter:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Institutionell aptit växer mot Bitcoin ETFs mitt i volatilitet

Avslöjande genom 13F-anmälningar avslöjar anmärkningsvärda institutionella investerare som sysslar med Bitcoin ETF:er, vilket understryker en växande acceptans av ...

Lär dig mer

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Injective går samman med AltLayer för att ge inEVM återupptagande säkerhet
Företag Nyhetsrapport Teknologi
Injective går samman med AltLayer för att ge inEVM återupptagande säkerhet
Maj 3, 2024
Masa samarbetar med Teller för att introducera MASA Lending Pool, möjliggör USDC-lån på basen
Marknader Nyhetsrapport Teknologi
Masa samarbetar med Teller för att introducera MASA Lending Pool, möjliggör USDC-lån på basen
Maj 3, 2024
Velodrome lanserar Superchain Beta-version under de kommande veckorna och expanderar över OP Stack Layer 2 Blockchains
Marknader Nyhetsrapport Teknologi
Velodrome lanserar Superchain Beta-version under de kommande veckorna och expanderar över OP Stack Layer 2 Blockchains
Maj 3, 2024
CARV tillkännager partnerskap med Aethir för att decentralisera sitt datalager och dela ut belöningar
Företag Nyhetsrapport Teknologi
CARV tillkännager partnerskap med Aethir för att decentralisera sitt datalager och dela ut belöningar
Maj 3, 2024