OpenAI Anuncia Evals, un marc de programari de codi obert per avaluar models d'IA
En breu
OpenAI espera utilitzar els punts de referència per avaluar models d'IA com ara GPT-4.
L'empresa de processament de pagaments, Stripe, ja ha utilitzat Evals per mesurar la precisió dels seus GPT-Eina de documentació motoritzada.
OpenAI s'atorgarà GPT-4 accedir durant un temps limitat a aquells que aportin avaluacions d'alta qualitat.
Al costat de l'anunci de GPT-4, OpenAI ha anunciat el marc de programari de codi obert OpenAI Avaluacions. Aquesta eina està dissenyada per crear i executar benchmarks que avaluen el rendiment de models com GPT-4. Amb Evals, OpenAI espera fer proves de referència per a les proves de models d'IA.
"Utilitzem Evals per guiar el desenvolupament dels nostres models (tant per identificar deficiències com per prevenir regressions), i els nostres usuaris poden aplicar-ho per fer un seguiment del rendiment a través de les versions de models (que ara sortiran regularment) i integracions de productes en evolució", explica la companyia a a entrada de bloc.
Stripe, una empresa popular de processament de pagaments, ja ha utilitzat Evals per complementar les seves avaluacions humanes i mesurar la precisió dels seus GPT-Eina de documentació motoritzada.
Els desenvolupadors poden utilitzar Evals per crear i executar avaluacions que:
- Utilitzeu conjunts de dades per generar sol·licituds,
- Mesurar la qualitat de les acabaments proporcionats per un OpenAI modeli
- Compareu el rendiment entre diferents conjunts de dades i models.
Amb el codi de codi obert, els desenvolupadors també poden escriure i afegir un Eval personalitzat així com diverses plantilles que poden acomodar diferents punts de referència. L'empresa ha inclòs plantilles que han estat més útils internament, inclosa una plantilla per a "avaluacions segons el model", que GPT-4 pot utilitzar per comprovar el seu propi treball. Com a exemple a seguir, l'empresa ha creat una avaluació de trencaclosques lògics que conté deu indicacions on GPT-4 falla.
Evals també és compatible amb la implementació de benchmarks existents, inclosos diversos quaderns que implementen benchmarks acadèmics i algunes variacions d'integració de petits subconjunts de CoQA.
Tot i que els desenvolupadors no cobraran per aportar avaluacions, OpenAI s'atorgarà GPT-4 accés durant un temps limitat a aquells que aportin “avaluacions d'alta qualitat”.
L'anunci d'Evals arriba després OpenAI va dir recentment deixaria d'utilitzar les dades enviades pels clients mitjançant la seva API per entrenar o millorar els seus models tret que els clients decideixin participar-hi. -models d'art” pel seu DynaBench plataforma.
Llegir més:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Cindy és periodista a Metaverse Post, tractant temes relacionats amb web3, NFT, metavers i IA, amb un focus en les entrevistes amb Web3 actors del sector. Ha parlat amb més de 30 executius de nivell C i comptant, aportant els seus valuosos coneixements als lectors. Cindy, originària de Singapur, ara té la seu a Tbilisi, Geòrgia. Té una llicenciatura en Comunicació i Estudis de Mitjans de Comunicació per la Universitat d'Austràlia Meridional i té una dècada d'experiència en periodisme i escriptura. Posa't en contacte amb ella via [protegit per correu electrònic] amb presentacions de premsa, anuncis i oportunitats d'entrevistes.
més articlesCindy és periodista a Metaverse Post, tractant temes relacionats amb web3, NFT, metavers i IA, amb un focus en les entrevistes amb Web3 actors del sector. Ha parlat amb més de 30 executius de nivell C i comptant, aportant els seus valuosos coneixements als lectors. Cindy, originària de Singapur, ara té la seu a Tbilisi, Geòrgia. Té una llicenciatura en Comunicació i Estudis de Mitjans de Comunicació per la Universitat d'Austràlia Meridional i té una dècada d'experiència en periodisme i escriptura. Posa't en contacte amb ella via [protegit per correu electrònic] amb presentacions de premsa, anuncis i oportunitats d'entrevistes.