Nyhetsrapport SMW Teknologi
Maj 30, 2023

GPT-4s prestation på US Bar Exam motsäger dess påståenden

I korthet

Undersökningen av GPT-4s prestation på Uniform Bar Exam avslöjade en diskrepans mellan uppskattad och faktisk prestation, vilket betonade vikten av transparenta utvärderingsprocedurer och tillgängliga data.

OpenAI uppmuntras att ta itu med diskrepanser och utveckla en mer inkluderande och tillförlitlig metod för utvärdering av AI-modeller för att vinna förtroende och säkerställa trovärdighet.

I en nyligen genomförd undersökning av GPT-4s prestation på Uniform Bar Exam (EBU), tvivel har uppstått om riktigheten av OpenAIs påståenden om modellens framgångsfrekvens. Tvärtemot det ursprungliga påståendet att GPT-4 överträffar 90 % av individerna, tyder resultaten på en betydande avvikelse mellan den uppskattade och faktiska prestandan för AI-modellen. Denna avslöjande understryker vikten av transparenta utvärderingsprocedurer och tillgängliga data för att validera sådana påståenden.

GPT-4s prestation på US Bar Exam motsäger dess påståenden
@Midjourney

Undersökningen fokuserade på olika faktorer för att fastställa den verkliga förmågan hos GPT-4. För det första analys av februariproven i Illinois avslöjade det GPT-4s poäng närmade sig 90: e percentilen. Det observerades dock att dessa poäng var starkt påverkade av omtagarna som tidigare hade underkänts i juliprovet och därmed fick poäng under det totala genomsnittet.

Dessutom motsade resultaten av juliexamen OpenAIs påståenden, avslöjar det GPT-4 skulle bara överträffa 68% av människor och 48% av uppsatser. GPT-4s prestation mot förstagångstagare (exklusive omtagningar) utvärderades vid 63:e percentilen när officiella data från flera tester vid olika perioder beaktades, med uppsatser som fick betydligt lägre poäng vid 41:a percentilen.

Ett ytterligare perspektiv fick man genom att undersöka prestationerna för de som klarade provet, inklusive licensierade personer och de som väntar på licensiering. I detta avseende GPT-4s övergripande prestation rankades på den 48:e percentilen, med uppsatser som gick ännu sämre vid den 15:e percentilen.

Även om dessa fynd är oroande, är det viktigt att överväga möjligheten av mänskliga misstag i granskningsprocessen. Artikelförfattaren betonar vikten av att förstå det urval som forskarna använder för att utvärdera GPT-4s prestanda. Bristen på officiella data, särskilt i aggregerad form, försvårar en rättvis jämförelse och utvärdering av percentiler. Att etablera tydliga och tillgängliga utvärderingstekniker som kan utvärderas av alla intressenter är avgörande.

Som svar på dessa farhågor, OpenAI uppmanas att åtgärda avvikelserna och ge ytterligare insikter in i utvärderingsprocessen. Transparens och öppenhet är avgörande för att vinna förtroende och säkerställa trovärdigheten hos AI-modeller inom höginsatsdomäner som juridik.

Det bör noteras att artikeln inte diskuterar den specifika poäng som uppnåtts av GPT-4, vilket rapporteras vara 298. Att utvärdera betydelsen av detta poäng kräver en kontextuell förståelse av betygssystemet som används. Precis som ett barn som kommer hem från skolan med ett B kan vara antingen en anledning till firande eller besvikelse, tolkningen av GPT-4s poäng beror på vilken skala som används.

Bedömningen av GPT-4s prestation på advokatexamen väcker allvarliga farhågor om sanningshalten i OpenAIs initiala påståenden. Gapet mellan uppskattad och faktisk prestation understryker vikten av tydliga utvärderingssystem och lättillgängliga data. OpenAI uppmuntras att ta itu med dessa utmaningar och utveckla en mer inkluderande och pålitlig inställning till AI modellutvärdering.

Läs mer om AI:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Hot Stories
Gå med i vårt nyhetsbrev.
Senaste nytt

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer

Samourai Wallet-grundare anklagade för att underlätta $2 miljarder i Darknet-erbjudanden

Uppfattningen av Samourai Wallet-grundarna representerar ett anmärkningsvärt bakslag för branschen, vilket understryker den ihållande ...

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Chainlink And Rapid Addition samarbetar för att utveckla CCIP-baserad blockkedjeadapter
Företag Nyhetsrapport Teknologi
Chainlink And Rapid Addition samarbetar för att utveckla CCIP-baserad blockkedjeadapter
Maj 1, 2024
BitSmiley lanserar Alphanet V1, debuterar på Bitcoin Layer 2 Network Bitlayer
Nyhetsrapport Teknologi
BitSmiley lanserar Alphanet V1, debuterar på Bitcoin Layer 2 Network Bitlayer
Maj 1, 2024
April 2024 ser historiskt lågt antal hacks och bedrägerier, CertiK rapporterar 141 % minskning från mars
Marknader Säkerhet Wiki Berättelser och recensioner Teknologi
April 2024 ser historiskt lågt antal hacks och bedrägerier, CertiK rapporterar 141 % minskning från mars
Maj 1, 2024
Bitcoin-priset sjunker före Federal Reserves räntebeslutsmeddelande, analytiker varnar för potentiell marknadsförändring
Marknader Nyhetsrapport Teknologi
Bitcoin-priset sjunker före Federal Reserves räntebeslutsmeddelande, analytiker varnar för potentiell marknadsförändring
Maj 1, 2024