Pot 30, 2023

GPT-4El rendiment de l'examen d'advocat dels EUA contradiu les seves afirmacions

Publicat: 30 de maig de 2023 a les 3:52 Actualitzat: 30 de maig de 2023 a les 3:52

Editat i verificat: 30 de maig de 2023 a les 3:52

En breu

L 'examen de GPT-4El rendiment de l'examen de la barra uniforme va revelar una discrepància entre el rendiment estimat i el real, posant èmfasi en la importància dels procediments d'avaluació transparents i de les dades accessibles.

OpenAI s'anima a abordar les discrepàncies i desenvolupar un enfocament més inclusiu i fiable de l'avaluació del model d'IA per guanyar confiança i garantir la credibilitat.

En un examen recent de GPT-4rendiment de l'examen de la barra uniforme (EBU), han sorgit dubtes sobre la precisió de OpenAIles afirmacions sobre la taxa d'èxit del model. Contràriament a l'afirmació inicial que GPT-4 supera el 90% dels individus, els resultats suggereixen una discrepància significativa entre el rendiment estimat i real del model d'IA. Aquesta revelació posa l'accent en la importància de procediments d'avaluació transparents i dades accessibles per validar aquestes afirmacions.

GPT-4El rendiment de l'examen d'advocat dels EUA contradiu les seves afirmacions — @Midjourney

L'examen es va centrar en diversos factors per determinar les capacitats reals de GPT-4. En primer lloc, el anàlisi dels exàmens de febrer a Illinois ho van revelar GPT-4Els resultats de 's s'acostaven al 90 percentil. No obstant això, es va observar que aquestes puntuacions estaven molt influenciades pels participants que anteriorment havien suspès l'examen de juliol i, per tant, tenien una puntuació per sota de la mitjana general.

A més, els resultats de l'examen de juliol es van contradir OpenAIles afirmacions de, revelant-ho GPT-4 només ho faria Superat 68% de persones i 48% d'assaigs. GPT-4El rendiment de 's contra els que prenen per primera vegada (excepte les repeticions) es va avaluar al percentil 63 quan es van considerar les dades oficials de diverses proves en diferents períodes, i els assaigs van obtenir una puntuació considerablement inferior al percentil 41.

Es va obtenir una perspectiva addicional examinant el rendiment d'aquells que van aprovar l'examen, incloses les persones amb llicència i les que esperaven la llicència. En relació a això, GPT-4El rendiment general de 's es va classificar al percentil 48, amb els assaigs encara pitjor al percentil 15.

Tot i que aquestes troballes són preocupants, és fonamental considerar la possibilitat d'error humà en el procés de revisió. L'autor de l'article destaca la importància d'entendre la mostra utilitzada pels investigadors per avaluar GPT-4rendiment de. La manca de dades oficials, especialment en forma agregada, dificulta la comparació justa i l'avaluació dels percentils. És fonamental establir tècniques d'avaluació clares i accessibles que puguin ser avaluades per totes les parts interessades.

En resposta a aquestes inquietuds, OpenAI s'insta a abordar les discrepàncies i proporcionar més coneixements en el procés d'avaluació. La transparència i l'obertura són essencials per guanyar confiança i garantir la credibilitat dels models d'IA en dominis d'alt risc com el dret.

Cal tenir en compte que l'article no parla de la puntuació específica aconseguida per GPT-4, que s'informa que és 298. L'avaluació de la importància d'aquesta puntuació requereix una comprensió contextual del sistema de qualificació utilitzat. De la mateixa manera que un nen que torna a casa de l'escola amb una B pot ser motiu de celebració o de decepció, la interpretació de la GPT-4La puntuació depèn de l'escala emprada.

La valoració de GPT-4rendiment de l'examen d'advocacia planteja serioses preocupacions sobre la veracitat de OpenAIles afirmacions inicials de. La bretxa entre el rendiment estimat i el real posa l'accent en la importància de sistemes d'avaluació clars i de dades de fàcil accés. OpenAI s'anima a abordar aquests reptes i desenvolupar un sistema més inclusiu i enfocament fiable de la IA avaluació del model.

Llegeix més sobre AI:

etiquetes:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.

més articles

Damir Yalalov