Nyheds rapport SMW Teknologier
Maj 30, 2023

GPT-4's præstation på US Bar Exam modsiger sine påstande

Kort sagt

Undersøgelsen af GPT-4's præstation på Uniform Bar Exam afslørede en uoverensstemmelse mellem estimeret og faktisk præstation, hvilket understregede vigtigheden af ​​gennemsigtige evalueringsprocedurer og tilgængelige data.

OpenAI opfordres til at adressere uoverensstemmelser og udvikle en mere inkluderende og pålidelig tilgang til AI-modelevaluering for at opnå tillid og sikre troværdighed.

I en nylig undersøgelse af GPT-4's præstation på Uniform Bar Exam (EBU), er der opstået tvivl om rigtigheden af OpenAI's påstande vedrørende modellens succesrate. I modsætning til den oprindelige påstand GPT-4 udkonkurrerer 90 % af individerne, antyder resultaterne en betydelig uoverensstemmelse mellem den estimerede og faktiske ydeevne af AI-modellen. Denne afsløring understreger vigtigheden af ​​gennemsigtige evalueringsprocedurer og tilgængelige data til at validere sådanne påstande.

GPT-4's præstation på US Bar Exam modsiger sine påstande
@Midjourney

Undersøgelsen fokuserede på forskellige faktorer for at fastslå de sande muligheder for GPT-4. For det første analyse af februar-eksamenerne i Illinois afslørede det GPT-4's scoringer nærmede sig 90. percentil. Det blev dog observeret, at disse scores var stærkt påvirket af retakere, der tidligere havde fejlet juli-eksamenen og dermed scorede under det samlede gennemsnit.

Desuden modsagde resultaterne af juli-eksamenen OpenAI's påstande og afslører det GPT-4 ville kun udkonkurrerer 68% af mennesker og 48% af essays. GPT-4's præstation i forhold til førstegangsbrugere (eksklusive gentagninger) blev evalueret ved 63. percentilen, når officielle data fra flere tests i forskellige perioder blev overvejet, med essays, der scorede betydeligt lavere ved 41. percentilen.

Et yderligere perspektiv blev opnået ved at undersøge præstationerne for dem, der bestod eksamen, herunder licenserede personer og dem, der afventer licens. I denne forbindelse GPT-4's overordnede præstation blev rangeret til den 48. percentil, hvor essays klarede sig endnu dårligere ved den 15. percentil.

Selvom disse resultater er bekymrende, er det afgørende at overveje muligheden for menneskelige fejl i gennemgangsprocessen. Forfatteren af ​​artiklen understreger vigtigheden af ​​at forstå den prøve, som forskerne har brugt til at evaluere GPT-4's præstation. Manglen på officielle data, især i aggregeret form, gør retfærdig sammenligning og evaluering af percentiler vanskelig. Det er afgørende at etablere klare og tilgængelige evalueringsteknikker, som kan evalueres af alle interessenter.

Som svar på disse bekymringer, OpenAI opfordres til at rette op på uoverensstemmelserne og give yderligere indsigt ind i evalueringsprocessen. Gennemsigtighed og åbenhed er afgørende for at opnå tillid og sikre troværdigheden af ​​AI-modeller på områder med høj indsats, såsom jura.

Det skal bemærkes, at artiklen ikke diskuterer den specifikke score opnået ved GPT-4, som er rapporteret at være 298. Evaluering af betydningen af ​​denne score kræver en kontekstuel forståelse af det anvendte karaktersystem. Ligesom et barn, der kommer hjem fra skole med et B, enten kan være en anledning til fest eller skuffelse, er fortolkningen af GPT-4's score afhænger af den anvendte skala.

Vurderingen af GPT-4's præstation på advokateksamen giver anledning til alvorlige bekymringer om rigtigheden af OpenAIførste påstande. Gabet mellem estimeret og faktisk præstation understreger vigtigheden af ​​klare evalueringssystemer og let tilgængelige data. OpenAI opfordres til at tage disse udfordringer op og udvikle en mere rummelig og pålidelig tilgang til AI model evaluering.

Læs mere om AI:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Hot Stories
Tilmeld dig vores nyhedsbrev.
Seneste Nyheder

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere

Samourai Wallet Founders anklaget for at facilitere $2B i Darknet-tilbud

Frygten fra Samourai Wallet-grundlæggerne repræsenterer et bemærkelsesværdigt tilbageslag for industrien, hvilket understreger den vedvarende ...

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Chainlink And Rapid Addition samarbejder om at udvikle CCIP-baseret Blockchain Adapter
Forretning Nyheds rapport Teknologier
Chainlink And Rapid Addition samarbejder om at udvikle CCIP-baseret Blockchain Adapter
Maj 1, 2024
BitSmiley lancerer Alphanet V1, debuterer på Bitcoin Layer 2 Network Bitlayer
Nyheds rapport Teknologier
BitSmiley lancerer Alphanet V1, debuterer på Bitcoin Layer 2 Network Bitlayer
Maj 1, 2024
April 2024 ser historisk lavt antal hacks og svindel, CertiK rapporterer 141 % fald fra marts
Markeder Sikkerhed Wiki Historier og anmeldelser Teknologier
April 2024 ser historisk lavt antal hacks og svindel, CertiK rapporterer 141 % fald fra marts
Maj 1, 2024
Bitcoin-kursfald forud for Federal Reserves rentebeslutningsmeddelelse, advarer analytikere om et potentielt markedsskift
Markeder Nyheds rapport Teknologier
Bitcoin-kursfald forud for Federal Reserves rentebeslutningsmeddelelse, advarer analytikere om et potentielt markedsskift
Maj 1, 2024