Nyheds rapport Teknologier
Marts 15, 2023

GPT-4 udkonkurrerer GPT-3.5 Over hele linjen på en række undersøgelsesbenchmarks

Kort sagt

GPT-4 har opnået en højere karaktergrænse end GPT-3.5 på en række forskellige benchmarks.

Dette er en stor præstation, da det viser, at maskiner ikke kun er i stand til menneskelignende intelligens, men også kan overgå os, hvilket rejser spørgsmål om fremtiden for AI og dens potentielle indflydelse på arbejdsmarkedet.

GPT-4 er markant bedre end af state-of-the-art (SOTA) modeller, inklusive dem, der bruger yderligere træningsprotokoller eller benchmark-specifikt design, såvel som eksisterende store sprogmodeller.

GPT-4 har opnået højere score end GPT-3.5 på en række forskellige benchmarks. Dette er et stort gennembrud for maskiner, da det beviser, at de nu ikke kun kan løse problemer, som oprindeligt er designet til, men også kan gøre det bedre end universitetsstuderende.

GPT-4 udkonkurrerer GPT-3.5 over hele linjen på en række undersøgelsesbenchmarks

Der er et par ting at tage i betragtning, når man ser på dette resultat. For det første GPT-4 fik ikke nogen specifik træning til disse eksamener. Det fortsatte ved at bruge de seneste offentligt tilgængelige tests (i tilfælde af Olympiads og AP gratis svarspørgsmål) eller ved at købe 2022-2023-udgaver af praksiseksamener. For det andet er det vigtigt at bemærke, at GPT-4's præstation afspejler muligvis ikke nødvendigvis de menneskelige testpersoners evner, da den opererer på et andet sæt principper og algoritmer.

Dette er en stor præstation som det viser at maskiner ikke kun er i stand til menneskelignende intelligens, men også kan udkonkurrere os. Dette baner vejen for en fremtid, hvor maskiner kan påtage sig flere og mere komplekse opgaver, hvilket i sidste ende fører til en fremtid, hvor de kan hjælpe os i vores hverdag.

GPT-4's evne til at udkonkurrere mennesker i visse opgaver rejser spørgsmål om fremtiden for kunstig intelligens og dets potentielle indflydelse på arbejdsmarkedet. Det fremhæver også behovet for fortsat forskning og udvikling på dette område for at sikre, at AI bliver brugt etisk og ansvarligt.
Læs mere: 5+ mest forventede tekst-til-billede AI-modeller fra 2023

GPT-4består for eksempel en simuleret bar-eksamen med en score blandt de øverste 10 % af testdeltagerne; GPT-3.5's score var i de nederste 10%. Denne betydelige forbedring i GPT-4's ydeevne skyldes dets større træningsdata og forbedrede arkitektur. Det forventes at have en bred vifte af applikationer inden for forskellige områder, herunder naturlig sprogbehandling og automatiseret skrivning.

 
GPT-4 udviser præstationer på menneskeligt niveau på de fleste af disse faglige og akademiske eksamener. Navnlig bestod den en simuleret version af Uniform Bar Examination med en score i top 10% af testdeltagere. Modellens evner til eksamen ser ud til primært at stamme fra fortræningsprocessen og er ikke væsentligt påvirket af RLHF. På multiple-choice spørgsmål, både basen GPT-4 modellen og RLHF-modellen klarede sig lige godt i gennemsnit på tværs af udviklerne af den testede eksamen.

Størstedelen af ​​state-of-the-art (SOTA) modeller, inklusive dem, der kan bruge yderligere træningsprotokoller eller benchmark-specifikt design, såvel som eksisterende store sprogmodeller, er markant bedre end GPT-4.

GPT-4's præstation med hensyn til akademiske standarder. Udviklere kontraster GPT-4 med den bedste SOTA for et LM-evalueret få-skud samt den bedste SOTA med benchmark-specifik træning. Med undtagelse af DROP, GPT-4 udkonkurrerer alle nuværende LM'er på alle benchmarks og SOTA med benchmark-specifik træning.

Internt har udviklere brugt GPT-4, som har haft en betydelig indflydelse på aktiviteter som programmering, salg, support og indholdsmoderering. Den anden fase af vores tilpasningsmetode er nu i gang, da udviklere bruger den til at hjælpe mennesker med at gennemgå AI-resultater.

MMLU-datasættet (Massive Multi-Task Language Understanding) indeholder spørgsmål fra en meget bred vifte af emner om sprogforståelse i forskellige opgaver (spænder over 57 domæner, herunder matematik, biologi, jura, samfunds- og humanvidenskab osv.). Der er fire mulige svar på spørgsmålet, hvoraf det ene er korrekt. Det vil sige, at tilfældig gætning viser et resultat af 25 % rigtige svar. Se billedet nedenfor for eksempler på spørgsmål og deres vanskeligheder. Den gennemsnitlige person-markør (det vil sige, dette er ikke en videnskabsmand, ikke en professor - en almindelig person, der måneskin som en markering) svarer korrekt på 35% af spørgsmålene; dog kan eksperterne nå en score på +/- 90%.

Udførelse af GPT-4 på en række sprog sammenlignet med tidligere modeller på engelsk på MMLU. GPT-4 overstiger den engelsksprogede ydeevne af eksisterende sprogmodeller for det store flertal af de undersøgte sprog, herunder lavressourcesprog som lettisk, walisisk og swahili.
Læs mere: 5 grunde til at bruge AI-drevet Bing over Google

Oprindeligt var hele datasættet på engelsk. Men hvad nu hvis spørgsmål og svar oversættes til andre sprog, især mindre almindelige? Vil modellen fungere for dem på en eller anden måde? I denne test blev Microsoft Azure Translate-tjenesten brugt til oversættelse. Oversættelser er ikke perfekte; i nogle tilfælde går vigtig information tabt. Men selv i dette tilfælde GPT-4 klarer sig godt på andre sprog. I de oversatte versioner af MMLU, GPT-4 overgår engelskniveauet for andre store modeller (inklusive Googles) med 24 af de 26 undersøgte sprog.

Hvad mere er, GPT-4 klarer sig bedre på sjældne sprog end ChatGPT gjorde på engelsk (ChatGPT opnåede en score på 70.1%, mens den nye models score for Thai var 71.8%. Karakteren for testen i engelsk var den højeste, med GPT-4 yder 10 % bedre end andre modeller, inklusive den største PaLM fra Google. Det opnåede en score på 86.4%, mens en gruppe eksperter-90%.

  • Inden sommeren 2023 kunne AI have nået et nyt niveau af kraft takket være ChatGPT, en chatbot, der bruger GPT-4 algoritme og udkonkurrerer GPT-3 med en faktor 570. En række elementer bidrager til ChatGPT's succes, herunder dets design til at være mere "menneskelignende" og dets brug af banebrydende datamining og naturlig sprogbehandling for at øge dets effektivitet og nøjagtighed.
  • Microsoft og OpenAI annoncerede deres fornyelse af samarbejdet og planlægger, at Bing-søgning skal anvende AI-forbedrede opslagsfunktioner i januar. Den meget sofistikerede GPT3.5 models udskiftning, GPT4, er netop blevet lanceret, og det har potentialet til i høj grad at forbedre Bing-søgnings kapacitet til at forstå naturlige sprogforespørgsler og levere mere nøjagtige resultater. Det er en god idé at have en god backup-plan, hvis noget går galt.

Læs flere relaterede nyheder:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Hot Stories
Tilmeld dig vores nyhedsbrev.
Seneste Nyheder

Institutionel appetit vokser mod Bitcoin ETF'er midt i volatilitet

Afsløringer gennem 13F-arkivering afslører bemærkelsesværdige institutionelle investorer, der dytter i Bitcoin ETF'er, hvilket understreger en voksende accept af ...

Vide mere

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Injective slår sig sammen med AltLayer for at give inEVM genskabende sikkerhed
Forretning Nyheds rapport Teknologier
Injective slår sig sammen med AltLayer for at give inEVM genskabende sikkerhed
Maj 3, 2024
Masa går sammen med Teller for at introducere MASA Lending Pool, muliggør USDC-lån på base
Markeder Nyheds rapport Teknologier
Masa går sammen med Teller for at introducere MASA Lending Pool, muliggør USDC-lån på base
Maj 3, 2024
Velodrome lancerer Superchain Beta-version i de kommende uger og udvider på tværs af OP Stack Layer 2 Blockchains
Markeder Nyheds rapport Teknologier
Velodrome lancerer Superchain Beta-version i de kommende uger og udvider på tværs af OP Stack Layer 2 Blockchains
Maj 3, 2024
CARV annoncerer partnerskab med Aethir for at decentralisere sit datalag og uddele belønninger
Forretning Nyheds rapport Teknologier
CARV annoncerer partnerskab med Aethir for at decentralisere sit datalag og uddele belønninger
Maj 3, 2024