Nieuwsverslag Technologie
16 maart 2023

OpenAI kondigt Evals aan, een open-source softwareframework voor het evalueren van AI-modellen

In het kort

OpenAI hoopt benchmarks te crowdsourcen voor het evalueren van AI-modellen zoals GPT-4.

Betalingsverwerkingsbedrijf Stripe heeft Evals al gebruikt om de nauwkeurigheid van hun betalingen te meten GPT-aangedreven documentatietool.

OpenAI zal verlenen GPT-4 gedurende een beperkte tijd toegang voor degenen die evaluaties van hoge kwaliteit bijdragen.

OpenAI kondigt Evals aan, een open-source softwareframework voor het evalueren van AI-modellen

Naast de aankondiging van GPT-4, OpenAI heeft het open-source software framework aangekondigd OpenAI Evals. Deze tool is ontworpen om benchmarks te maken en uit te voeren die de prestaties van modellen evalueren GPT-4. Met Evals, OpenAI hoopt benchmarks voor het testen van AI-modellen te crowdsourcen. 

"We gebruiken Evaluaties om de ontwikkeling van onze modellen te begeleiden (zowel om tekortkomingen te identificeren als om regressies te voorkomen), en onze gebruikers kunnen het toepassen voor het volgen van de prestaties van modelversies (die nu regelmatig uitkomen) en het ontwikkelen van productintegraties", legt het bedrijf uit in A blogpost.

Stripe, een populair betalingsverwerkingsbedrijf, heeft Evals al gebruikt om zijn menselijke evaluaties aan te vullen en de nauwkeurigheid ervan te meten GPT-aangedreven documentatietool.

Ontwikkelaars kunnen Evaluaties gebruiken om evaluaties te maken en uit te voeren die:

  • Gebruik datasets om prompts te genereren,
  • Meet de kwaliteit van voltooiingen geleverd door een OpenAI model en
  • Vergelijk de prestaties van verschillende datasets en modellen.

Met de open-sourcecode kunnen ontwikkelaars ook een aangepaste evaluatie net zoals verschillende sjablonen die geschikt zijn voor verschillende benchmarks. Het bedrijf heeft sjablonen toegevoegd die intern het nuttigst zijn geweest, waaronder een sjabloon voor ‘model-graded evals’, die GPT-4 kan gebruiken om zijn eigen werk te controleren. Als voorbeeld om te volgen: het bedrijf heeft een evaluatie van logische puzzels gemaakt met tien aanwijzingen waar GPT-4 mislukt.

Evals is ook compatibel met het implementeren van bestaande benchmarks, waaronder verschillende notebooks die academische benchmarks implementeren en een paar variaties op het integreren van kleine subsets van CoQA.

Hoewel ontwikkelaars niet worden betaald voor het bijdragen aan Evaluaties, OpenAI zal verlenen GPT-4 gedurende een beperkte tijd toegang voor degenen die “hoogwaardige evaluaties” bijdragen. 

De aankondiging van Evals komt daarna OpenAI zei onlangs het zou stoppen met het gebruik van gegevens die door klanten via zijn API zijn ingediend om zijn modellen te trainen of te verbeteren, tenzij de klanten besluiten om mee te doen. Het bedrijf sluit zich aan bij Meta in crowdsourcing-benchmarks, aangezien de laatste mensen belast met het vinden van tegenstrijdige voorbeelden die de huidige stand van zaken voor de gek houden. -art modellen" voor zijn DynaBench platform.

Lees verder:

Tags:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

Meer artikelen
Cindy Tan
Cindy Tan

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

Hot Stories

BRICS Nations Eye Stablecoin-handelsoplossing

by Viktoriia Palchik
01 mei 2024
Schrijf je in op onze nieuwsbrief.
Laatste Nieuws

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten

Oprichters van Samourai Wallet beschuldigd van het faciliteren van $2 miljard aan Darknet-deals

De arrestatie van de oprichters van Samourai Wallet betekent een opmerkelijke tegenslag voor de sector en onderstreept de aanhoudende ...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Ankr werkt samen met AI Blockchain Platform Talus Network om Bitcoin-liquiditeit voor AI te ontsluiten
Business Nieuwsverslag Technologie
Ankr werkt samen met AI Blockchain Platform Talus Network om Bitcoin-liquiditeit voor AI te ontsluiten
1 mei 2024
Binance Labs ondersteunt Movement Labs om de integratie van Facebook in blockchains te vergemakkelijken
Business Nieuwsverslag Technologie
Binance Labs ondersteunt Movement Labs om de integratie van Facebook in blockchains te vergemakkelijken
1 mei 2024
BRICS Nations Eye Stablecoin-handelsoplossing
Business Markten Verhalen en recensies Technologie
BRICS Nations Eye Stablecoin-handelsoplossing
1 mei 2024
Bitcoin L2 Network BOB integreert met LayerZero voor verbeterde functionaliteit
Business Nieuwsverslag Technologie
Bitcoin L2 Network BOB integreert met LayerZero voor verbeterde functionaliteit
1 mei 2024