Nieuwsverslag SMW Technologie
30 mei 2023

GPT-4's prestatie op het Amerikaanse balie-examen is in tegenspraak met zijn beweringen

In het kort

Het onderzoek van GPT-4's prestaties op het Uniform Bar Exam brachten een discrepantie aan het licht tussen geschatte en werkelijke prestaties, wat het belang van transparante evaluatieprocedures en toegankelijke gegevens benadrukte.

OpenAI wordt aangemoedigd om discrepanties aan te pakken en een meer inclusieve en betrouwbare benadering van de evaluatie van AI-modellen te ontwikkelen om vertrouwen te winnen en de geloofwaardigheid te waarborgen.

Bij een recent onderzoek van GPT-4's optreden op het Uniform Bar Exam (EBU), er zijn twijfels gerezen over de juistheid van OpenAI's beweringen over het succespercentage van het model. In tegenstelling tot de aanvankelijke bewering dat GPT-4 presteert beter dan 90% van de individuen, suggereren de bevindingen een aanzienlijke discrepantie tussen de geschatte en werkelijke prestaties van het AI-model. Deze onthulling benadrukt het belang van transparante evaluatieprocedures en toegankelijke gegevens voor het valideren van dergelijke claims.

GPT-4's prestatie op het Amerikaanse balie-examen is in tegenspraak met zijn beweringen
@Midjourney

Het onderzoek concentreerde zich op verschillende factoren om de werkelijke capaciteiten van GPT-4. Ten eerste de analyse van de februari-examens in Illinois onthulde dat GPT-4's scores benaderden de 90e percentiel. Er werd echter opgemerkt dat deze scores sterk werden beïnvloed door herkansers die eerder waren gezakt voor het juli-examen en dus onder het algemene gemiddelde scoorden.

Bovendien waren de resultaten van het juli-examen in tegenspraak OpenAI's beweringen, waaruit blijkt dat GPT-4 zou alleen overtreffen 68% van de mensen en 48% van de essays. GPT-4's prestatie ten opzichte van nieuwe kandidaten (exclusief herkansingen) werd geëvalueerd op het 63e percentiel wanneer officiële gegevens van verschillende tests in verschillende perioden in aanmerking werden genomen, waarbij essays aanzienlijk lager scoorden op het 41e percentiel.

Er werd een extra perspectief verkregen door de prestaties te onderzoeken van degenen die geslaagd waren voor het examen, inclusief personen met een licentie en degenen die in afwachting waren van een licentie. In dit verband, GPT-4's algehele prestatie werd gerangschikt op het 48e percentiel, terwijl de essays het nog slechter deden op het 15e percentiel.

Hoewel deze bevindingen verontrustend zijn, is het van cruciaal belang om tijdens het beoordelingsproces rekening te houden met de mogelijkheid van menselijke fouten. De auteur van het artikel benadrukt het belang van het begrijpen van de steekproef die door de onderzoekers wordt gebruikt om te evalueren GPT-4's prestatie. Het gebrek aan officiële gegevens, vooral in geaggregeerde vorm, maakt een eerlijke vergelijking en evaluatie van percentielen moeilijk. Het opzetten van duidelijke en toegankelijke evaluatietechnieken die door alle belanghebbenden kunnen worden geëvalueerd, is van cruciaal belang.

Als antwoord op deze zorgen, OpenAI wordt dringend verzocht de discrepanties aan te pakken meer inzichten geven in het evaluatieproces. Transparantie en openheid zijn essentieel om vertrouwen te winnen en de geloofwaardigheid van AI-modellen te waarborgen in domeinen waar veel op het spel staat, zoals de wet.

Opgemerkt moet worden dat het artikel niet ingaat op de specifieke score die wordt behaald door GPT-4, wat naar verluidt 298 is. Het evalueren van de betekenis van deze score vereist een contextueel begrip van het gebruikte beoordelingssysteem. Net zoals een kind dat met een XNUMX thuiskomt van school een reden tot feest of teleurstelling kan zijn, zo luidt de interpretatie van de GPT-4De score van 's hangt af van de gebruikte schaal.

De beoordeling van GPT-4's optreden op het bar-examen baart ernstige zorgen over de waarheid van OpenAI's eerste beweringen. De kloof tussen geschatte en werkelijke prestaties benadrukt het belang van duidelijke evaluatiesystemen en gemakkelijk toegankelijke gegevens. OpenAI wordt aangemoedigd om deze uitdagingen aan te pakken en een meer inclusieve en duurzame samenleving te ontwikkelen betrouwbare benadering van AI modelevaluatie.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten

Oprichters van Samourai Wallet beschuldigd van het faciliteren van $2 miljard aan Darknet-deals

De arrestatie van de oprichters van Samourai Wallet betekent een opmerkelijke tegenslag voor de sector en onderstreept de aanhoudende ...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Chainlink en Rapid Addition werken samen aan de ontwikkeling van een op CCIP gebaseerde Blockchain-adapter
Business Nieuwsverslag Technologie
Chainlink en Rapid Addition werken samen aan de ontwikkeling van een op CCIP gebaseerde Blockchain-adapter
1 mei 2024
BitSmiley lanceert Alphanet V1, debuteert op Bitcoin Layer 2 Network Bitlayer
Nieuwsverslag Technologie
BitSmiley lanceert Alphanet V1, debuteert op Bitcoin Layer 2 Network Bitlayer
1 mei 2024
April 2024 kent een historisch dieptepunt in hacks en oplichting, CertiK rapporteert een daling van 141% ten opzichte van maart
Markten Security Wiki Verhalen en recensies Technologie
April 2024 kent een historisch dieptepunt in hacks en oplichting, CertiK rapporteert een daling van 141% ten opzichte van maart
1 mei 2024
Bitcoin-prijs daalt voorafgaand aan de aankondiging van het rentebesluit van de Federal Reserve, analisten waarschuwen voor een potentiële marktverschuiving
Markten Nieuwsverslag Technologie
Bitcoin-prijs daalt voorafgaand aan de aankondiging van het rentebesluit van de Federal Reserve, analisten waarschuwen voor een potentiële marktverschuiving
1 mei 2024