GPT-4 udkonkurrerer GPT-3.5 Over hele linjen på en række undersøgelsesbenchmarks
Kort sagt
GPT-4 har opnået en højere karaktergrænse end GPT-3.5 på en række forskellige benchmarks.
Dette er en stor præstation, da det viser, at maskiner ikke kun er i stand til menneskelignende intelligens, men også kan overgå os, hvilket rejser spørgsmål om fremtiden for AI og dens potentielle indflydelse på arbejdsmarkedet.
GPT-4 er markant bedre end af state-of-the-art (SOTA) modeller, inklusive dem, der bruger yderligere træningsprotokoller eller benchmark-specifikt design, såvel som eksisterende store sprogmodeller.
GPT-4 har opnået højere score end GPT-3.5 på en række forskellige benchmarks. Dette er et stort gennembrud for maskiner, da det beviser, at de nu ikke kun kan løse problemer, som oprindeligt er designet til, men også kan gøre det bedre end universitetsstuderende.
Der er et par ting at tage i betragtning, når man ser på dette resultat. For det første GPT-4 fik ikke nogen specifik træning til disse eksamener. Det fortsatte ved at bruge de seneste offentligt tilgængelige tests (i tilfælde af Olympiads og AP gratis svarspørgsmål) eller ved at købe 2022-2023-udgaver af praksiseksamener. For det andet er det vigtigt at bemærke, at GPT-4's præstation afspejler muligvis ikke nødvendigvis de menneskelige testpersoners evner, da den opererer på et andet sæt principper og algoritmer.
Dette er en stor præstation som det viser at maskiner ikke kun er i stand til menneskelignende intelligens, men også kan udkonkurrere os. Dette baner vejen for en fremtid, hvor maskiner kan påtage sig flere og mere komplekse opgaver, hvilket i sidste ende fører til en fremtid, hvor de kan hjælpe os i vores hverdag.
GPT-4består for eksempel en simuleret bar-eksamen med en score blandt de øverste 10 % af testdeltagerne; GPT-3.5's score var i de nederste 10%. Denne betydelige forbedring i GPT-4's ydeevne skyldes dets større træningsdata og forbedrede arkitektur. Det forventes at have en bred vifte af applikationer inden for forskellige områder, herunder naturlig sprogbehandling og automatiseret skrivning.
Størstedelen af state-of-the-art (SOTA) modeller, inklusive dem, der kan bruge yderligere træningsprotokoller eller benchmark-specifikt design, såvel som eksisterende store sprogmodeller, er markant bedre end GPT-4.
Internt har udviklere brugt GPT-4, som har haft en betydelig indflydelse på aktiviteter som programmering, salg, support og indholdsmoderering. Den anden fase af vores tilpasningsmetode er nu i gang, da udviklere bruger den til at hjælpe mennesker med at gennemgå AI-resultater.
MMLU-datasættet (Massive Multi-Task Language Understanding) indeholder spørgsmål fra en meget bred vifte af emner om sprogforståelse i forskellige opgaver (spænder over 57 domæner, herunder matematik, biologi, jura, samfunds- og humanvidenskab osv.). Der er fire mulige svar på spørgsmålet, hvoraf det ene er korrekt. Det vil sige, at tilfældig gætning viser et resultat af 25 % rigtige svar. Se billedet nedenfor for eksempler på spørgsmål og deres vanskeligheder. Den gennemsnitlige person-markør (det vil sige, dette er ikke en videnskabsmand, ikke en professor - en almindelig person, der måneskin som en markering) svarer korrekt på 35% af spørgsmålene; dog kan eksperterne nå en score på +/- 90%.
Oprindeligt var hele datasættet på engelsk. Men hvad nu hvis spørgsmål og svar oversættes til andre sprog, især mindre almindelige? Vil modellen fungere for dem på en eller anden måde? I denne test blev Microsoft Azure Translate-tjenesten brugt til oversættelse. Oversættelser er ikke perfekte; i nogle tilfælde går vigtig information tabt. Men selv i dette tilfælde GPT-4 klarer sig godt på andre sprog. I de oversatte versioner af MMLU, GPT-4 overgår engelskniveauet for andre store modeller (inklusive Googles) med 24 af de 26 undersøgte sprog.
Hvad mere er, GPT-4 klarer sig bedre på sjældne sprog end ChatGPT gjorde på engelsk (ChatGPT opnåede en score på 70.1%, mens den nye models score for Thai var 71.8%. Karakteren for testen i engelsk var den højeste, med GPT-4 yder 10 % bedre end andre modeller, inklusive den største PaLM fra Google. Det opnåede en score på 86.4%, mens en gruppe eksperter-90%.
- Inden sommeren 2023 kunne AI have nået et nyt niveau af kraft takket være ChatGPT, en chatbot, der bruger GPT-4 algoritme og udkonkurrerer GPT-3 med en faktor 570. En række elementer bidrager til ChatGPT's succes, herunder dets design til at være mere "menneskelignende" og dets brug af banebrydende datamining og naturlig sprogbehandling for at øge dets effektivitet og nøjagtighed.
- Microsoft og OpenAI annoncerede deres fornyelse af samarbejdet og planlægger, at Bing-søgning skal anvende AI-forbedrede opslagsfunktioner i januar. Den meget sofistikerede GPT3.5 models udskiftning, GPT4, er netop blevet lanceret, og det har potentialet til i høj grad at forbedre Bing-søgnings kapacitet til at forstå naturlige sprogforespørgsler og levere mere nøjagtige resultater. Det er en god idé at have en god backup-plan, hvis noget går galt.
Læs flere relaterede nyheder:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.