GPT-4's præstation på US Bar Exam modsiger sine påstande
Kort sagt
Undersøgelsen af GPT-4's præstation på Uniform Bar Exam afslørede en uoverensstemmelse mellem estimeret og faktisk præstation, hvilket understregede vigtigheden af gennemsigtige evalueringsprocedurer og tilgængelige data.
OpenAI opfordres til at adressere uoverensstemmelser og udvikle en mere inkluderende og pålidelig tilgang til AI-modelevaluering for at opnå tillid og sikre troværdighed.
I en nylig undersøgelse af GPT-4's præstation på Uniform Bar Exam (EBU), er der opstået tvivl om rigtigheden af OpenAI's påstande vedrørende modellens succesrate. I modsætning til den oprindelige påstand GPT-4 udkonkurrerer 90 % af individerne, antyder resultaterne en betydelig uoverensstemmelse mellem den estimerede og faktiske ydeevne af AI-modellen. Denne afsløring understreger vigtigheden af gennemsigtige evalueringsprocedurer og tilgængelige data til at validere sådanne påstande.
Undersøgelsen fokuserede på forskellige faktorer for at fastslå de sande muligheder for GPT-4. For det første analyse af februar-eksamenerne i Illinois afslørede det GPT-4's scoringer nærmede sig 90. percentil. Det blev dog observeret, at disse scores var stærkt påvirket af retakere, der tidligere havde fejlet juli-eksamenen og dermed scorede under det samlede gennemsnit.
Desuden modsagde resultaterne af juli-eksamenen OpenAI's påstande og afslører det GPT-4 ville kun udkonkurrerer 68% af mennesker og 48% af essays. GPT-4's præstation i forhold til førstegangsbrugere (eksklusive gentagninger) blev evalueret ved 63. percentilen, når officielle data fra flere tests i forskellige perioder blev overvejet, med essays, der scorede betydeligt lavere ved 41. percentilen.
Et yderligere perspektiv blev opnået ved at undersøge præstationerne for dem, der bestod eksamen, herunder licenserede personer og dem, der afventer licens. I denne forbindelse GPT-4's overordnede præstation blev rangeret til den 48. percentil, hvor essays klarede sig endnu dårligere ved den 15. percentil.
Selvom disse resultater er bekymrende, er det afgørende at overveje muligheden for menneskelige fejl i gennemgangsprocessen. Forfatteren af artiklen understreger vigtigheden af at forstå den prøve, som forskerne har brugt til at evaluere GPT-4's præstation. Manglen på officielle data, især i aggregeret form, gør retfærdig sammenligning og evaluering af percentiler vanskelig. Det er afgørende at etablere klare og tilgængelige evalueringsteknikker, som kan evalueres af alle interessenter.
Som svar på disse bekymringer, OpenAI opfordres til at rette op på uoverensstemmelserne og give yderligere indsigt ind i evalueringsprocessen. Gennemsigtighed og åbenhed er afgørende for at opnå tillid og sikre troværdigheden af AI-modeller på områder med høj indsats, såsom jura.
Det skal bemærkes, at artiklen ikke diskuterer den specifikke score opnået ved GPT-4, som er rapporteret at være 298. Evaluering af betydningen af denne score kræver en kontekstuel forståelse af det anvendte karaktersystem. Ligesom et barn, der kommer hjem fra skole med et B, enten kan være en anledning til fest eller skuffelse, er fortolkningen af GPT-4's score afhænger af den anvendte skala.
Vurderingen af GPT-4's præstation på advokateksamen giver anledning til alvorlige bekymringer om rigtigheden af OpenAIførste påstande. Gabet mellem estimeret og faktisk præstation understreger vigtigheden af klare evalueringssystemer og let tilgængelige data. OpenAI opfordres til at tage disse udfordringer op og udvikle en mere rummelig og pålidelig tilgang til AI model evaluering.
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.