OpenAI annonce Evals, un cadre logiciel open source pour l'évaluation des modèles d'IA
En bref
OpenAI espère rassembler des références pour évaluer les modèles d'IA comme GPT-4.
La société de traitement des paiements Stripe a déjà utilisé Evals pour mesurer l'exactitude de ses données. GPT-outil de documentation alimenté.
OpenAI accordera GPT-4 accès pour une durée limitée à ceux qui contribuent à des évaluations de haute qualité.
Parallèlement à l'annonce de GPT-4, OpenAI a annoncé le cadre logiciel open-source OpenAI Évaluations. Cet outil est conçu pour créer et exécuter des benchmarks qui évaluent les performances de modèles tels que GPT-4. Avec les évaluations, OpenAI espère crowdsourcer des références pour les tests de modèles d'IA.
"Nous utilisons Evals pour guider le développement de nos modèles (à la fois en identifiant les lacunes et en empêchant les régressions), et nos utilisateurs peuvent l'appliquer pour suivre les performances entre les versions de modèles (qui sortiront désormais régulièrement) et l'évolution des intégrations de produits", explique la société dans un blog récents.
Stripe, une société de traitement des paiements populaire, a déjà utilisé Evals pour compléter ses évaluations humaines et mesurer l'exactitude de leurs GPT-outil de documentation alimenté.
Les développeurs peuvent utiliser Evals pour créer et exécuter des évaluations qui :
- Utiliser des ensembles de données pour générer des invites,
- Mesurer la qualité des réalisations fournies par un OpenAI modèleet
- Comparez les performances de différents ensembles de données et modèles.
Avec le code open-source, les développeurs peuvent également écrire et ajouter un évaluation personnalisée ainsi que plusieurs modèles qui peuvent s’adapter à différents critères. L'entreprise a inclus des modèles qui se sont révélés très utiles en interne, notamment un modèle pour les « évaluations notées par modèle », qui GPT-4 peut utiliser pour vérifier son propre travail. À titre d'exemple à suivre, l'entreprise a créé une évaluation d'énigmes logiques contenant dix invites où GPT-4 échoue.
Evals est également compatible avec la mise en œuvre de benchmarks existants, y compris plusieurs cahiers mettant en œuvre des benchmarks académiques et quelques variantes d'intégration de petits sous-ensembles de CoQA.
Bien que les développeurs ne soient pas payés pour contribuer aux évaluations, OpenAI accordera GPT-4 accès pour une durée limitée à ceux qui contribuent à des « évaluations de haute qualité ».
L'annonce des Evals vient après OpenAI a récemment déclaré il cesserait d'utiliser les données soumises par les clients via son API pour former ou améliorer ses modèles à moins que les clients ne décident de s'y inscrire. -modèles d'art » pour ses DynaBanc plate-forme.
Lire la suite:
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Cindy est journaliste à Metaverse Post, traitant de sujets liés à web3, NFT, métavers et IA, avec un focus sur des entretiens avec Web3 acteurs du secteur. Elle a parlé à plus de 30 cadres supérieurs et ce n'est pas fini, apportant leurs précieuses informations aux lecteurs. Originaire de Singapour, Cindy est désormais basée à Tbilissi, en Géorgie. Elle est titulaire d'un baccalauréat en communications et études médiatiques de l'Université d'Australie du Sud et possède une décennie d'expérience dans le journalisme et l'écriture. Contactez-la via [email protected] avec des pitchs de presse, des annonces et des opportunités d'interview.
Plus d'articlesCindy est journaliste à Metaverse Post, traitant de sujets liés à web3, NFT, métavers et IA, avec un focus sur des entretiens avec Web3 acteurs du secteur. Elle a parlé à plus de 30 cadres supérieurs et ce n'est pas fini, apportant leurs précieuses informations aux lecteurs. Originaire de Singapour, Cindy est désormais basée à Tbilissi, en Géorgie. Elle est titulaire d'un baccalauréat en communications et études médiatiques de l'Université d'Australie du Sud et possède une décennie d'expérience dans le journalisme et l'écriture. Contactez-la via [email protected] avec des pitchs de presse, des annonces et des opportunités d'interview.