Rapport de nouvelles Technologie
16 mars 2023

OpenAI annonce Evals, un cadre logiciel open source pour l'évaluation des modèles d'IA

En bref

OpenAI espère rassembler des références pour évaluer les modèles d'IA comme GPT-4.

La société de traitement des paiements Stripe a déjà utilisé Evals pour mesurer l'exactitude de ses données. GPT-outil de documentation alimenté.

OpenAI accordera GPT-4 accès pour une durée limitée à ceux qui contribuent à des évaluations de haute qualité.

OpenAI annonce Evals, un cadre logiciel open source pour l'évaluation des modèles d'IA

Parallèlement à l'annonce de GPT-4, OpenAI a annoncé le cadre logiciel open-source OpenAI Évaluations. Cet outil est conçu pour créer et exécuter des benchmarks qui évaluent les performances de modèles tels que GPT-4. Avec les évaluations, OpenAI espère crowdsourcer des références pour les tests de modèles d'IA. 

"Nous utilisons Evals pour guider le développement de nos modèles (à la fois en identifiant les lacunes et en empêchant les régressions), et nos utilisateurs peuvent l'appliquer pour suivre les performances entre les versions de modèles (qui sortiront désormais régulièrement) et l'évolution des intégrations de produits", explique la société dans un blog récents.

Stripe, une société de traitement des paiements populaire, a déjà utilisé Evals pour compléter ses évaluations humaines et mesurer l'exactitude de leurs GPT-outil de documentation alimenté.

Les développeurs peuvent utiliser Evals pour créer et exécuter des évaluations qui :

  • Utiliser des ensembles de données pour générer des invites,
  • Mesurer la qualité des réalisations fournies par un OpenAI modèleet
  • Comparez les performances de différents ensembles de données et modèles.

Avec le code open-source, les développeurs peuvent également écrire et ajouter un évaluation personnalisée ainsi que plusieurs modèles qui peuvent s’adapter à différents critères. L'entreprise a inclus des modèles qui se sont révélés très utiles en interne, notamment un modèle pour les « évaluations notées par modèle », qui GPT-4 peut utiliser pour vérifier son propre travail. À titre d'exemple à suivre, l'entreprise a créé une évaluation d'énigmes logiques contenant dix invites où GPT-4 échoue.

Evals est également compatible avec la mise en œuvre de benchmarks existants, y compris plusieurs cahiers mettant en œuvre des benchmarks académiques et quelques variantes d'intégration de petits sous-ensembles de CoQA.

Bien que les développeurs ne soient pas payés pour contribuer aux évaluations, OpenAI accordera GPT-4 accès pour une durée limitée à ceux qui contribuent à des « évaluations de haute qualité ». 

L'annonce des Evals vient après OpenAI a récemment déclaré il cesserait d'utiliser les données soumises par les clients via son API pour former ou améliorer ses modèles à moins que les clients ne décident de s'y inscrire. -modèles d'art » pour ses DynaBanc plate-forme.

Lire la suite:

Mots clés:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Cindy est journaliste à Metaverse Post, traitant de sujets liés à web3, NFT, métavers et IA, avec un focus sur des entretiens avec Web3 acteurs du secteur. Elle a parlé à plus de 30 cadres supérieurs et ce n'est pas fini, apportant leurs précieuses informations aux lecteurs. Originaire de Singapour, Cindy est désormais basée à Tbilissi, en Géorgie. Elle est titulaire d'un baccalauréat en communications et études médiatiques de l'Université d'Australie du Sud et possède une décennie d'expérience dans le journalisme et l'écriture. Contactez-la via [email protected] avec des pitchs de presse, des annonces et des opportunités d'interview.

Plus d'articles
Cindy Tan
Cindy Tan

Cindy est journaliste à Metaverse Post, traitant de sujets liés à web3, NFT, métavers et IA, avec un focus sur des entretiens avec Web3 acteurs du secteur. Elle a parlé à plus de 30 cadres supérieurs et ce n'est pas fini, apportant leurs précieuses informations aux lecteurs. Originaire de Singapour, Cindy est désormais basée à Tbilissi, en Géorgie. Elle est titulaire d'un baccalauréat en communications et études médiatiques de l'Université d'Australie du Sud et possède une décennie d'expérience dans le journalisme et l'écriture. Contactez-la via [email protected] avec des pitchs de presse, des annonces et des opportunités d'interview.

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus

Les fondateurs de Samourai Wallet accusés d'avoir facilité 2 milliards de dollars de transactions sur le Darknet

L'appréhension des fondateurs de Samourai Wallet représente un revers notable pour l'industrie, soulignant la persistance...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Ankr collabore avec le réseau Talus de la plate-forme AI Blockchain pour débloquer la liquidité Bitcoin pour l'IA
La Brochure Rapport de nouvelles Technologie
Ankr collabore avec le réseau Talus de la plate-forme AI Blockchain pour débloquer la liquidité Bitcoin pour l'IA
1 mai 2024
Binance Labs soutient Movement Labs pour faciliter l'intégration de Facebook à travers les blockchains
La Brochure Rapport de nouvelles Technologie
Binance Labs soutient Movement Labs pour faciliter l'intégration de Facebook à travers les blockchains
1 mai 2024
Les nations BRICS envisagent une solution commerciale stable
La Brochure Marchés Histoires et critiques Technologie
Les nations BRICS envisagent une solution commerciale stable
1 mai 2024
Le réseau Bitcoin L2 BOB s'intègre à LayerZero pour une fonctionnalité améliorée
La Brochure Rapport de nouvelles Technologie
Le réseau Bitcoin L2 BOB s'intègre à LayerZero pour une fonctionnalité améliorée
1 mai 2024
CRYPTOMERIA LABS PTE. LTD.