Nieuwsverslag Technologie
16 maart 2023

OpenAI kondigt Evals aan, een open-source softwareframework voor het evalueren van AI-modellen

In het kort

OpenAI hoopt benchmarks te crowdsourcen voor het evalueren van AI-modellen zoals GPT-4.

Betalingsverwerkingsbedrijf Stripe heeft Evals al gebruikt om de nauwkeurigheid van hun betalingen te meten GPT-aangedreven documentatietool.

OpenAI zal verlenen GPT-4 gedurende een beperkte tijd toegang voor degenen die evaluaties van hoge kwaliteit bijdragen.

OpenAI kondigt Evals aan, een open-source softwareframework voor het evalueren van AI-modellen

Naast de aankondiging van GPT-4, OpenAI heeft het open-source software framework aangekondigd OpenAI Evals. Deze tool is ontworpen om benchmarks te maken en uit te voeren die de prestaties van modellen evalueren GPT-4. Met Evals, OpenAI hoopt benchmarks voor het testen van AI-modellen te crowdsourcen. 

"We gebruiken Evaluaties om de ontwikkeling van onze modellen te begeleiden (zowel om tekortkomingen te identificeren als om regressies te voorkomen), en onze gebruikers kunnen het toepassen voor het volgen van de prestaties van modelversies (die nu regelmatig uitkomen) en het ontwikkelen van productintegraties", legt het bedrijf uit in A blogpost.

Stripe, een populair betalingsverwerkingsbedrijf, heeft Evals al gebruikt om zijn menselijke evaluaties aan te vullen en de nauwkeurigheid ervan te meten GPT-aangedreven documentatietool.

Ontwikkelaars kunnen Evaluaties gebruiken om evaluaties te maken en uit te voeren die:

  • Gebruik datasets om prompts te genereren,
  • Meet de kwaliteit van voltooiingen geleverd door een OpenAI model en
  • Vergelijk de prestaties van verschillende datasets en modellen.

Met de open-sourcecode kunnen ontwikkelaars ook een aangepaste evaluatie net zoals verschillende sjablonen die geschikt zijn voor verschillende benchmarks. Het bedrijf heeft sjablonen toegevoegd die intern het nuttigst zijn geweest, waaronder een sjabloon voor ‘model-graded evals’, die GPT-4 kan gebruiken om zijn eigen werk te controleren. Als voorbeeld om te volgen: het bedrijf heeft een evaluatie van logische puzzels gemaakt met tien aanwijzingen waar GPT-4 mislukt.

Evals is ook compatibel met het implementeren van bestaande benchmarks, waaronder verschillende notebooks die academische benchmarks implementeren en een paar variaties op het integreren van kleine subsets van CoQA.

Hoewel ontwikkelaars niet worden betaald voor het bijdragen aan Evaluaties, OpenAI zal verlenen GPT-4 gedurende een beperkte tijd toegang voor degenen die “hoogwaardige evaluaties” bijdragen. 

De aankondiging van Evals komt daarna OpenAI zei onlangs het zou stoppen met het gebruik van gegevens die door klanten via zijn API zijn ingediend om zijn modellen te trainen of te verbeteren, tenzij de klanten besluiten om mee te doen. Het bedrijf sluit zich aan bij Meta in crowdsourcing-benchmarks, aangezien de laatste mensen belast met het vinden van tegenstrijdige voorbeelden die de huidige stand van zaken voor de gek houden. -art modellen" voor zijn DynaBench platform.

Lees verder:

Tags:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

Meer artikelen
Cindy Tan
Cindy Tan

Cindy is journaliste bij Metaverse Post, over onderwerpen die verband houden met web3, NFT, metaverse en AI, met een focus op interviews met Web3 spelers uit de industrie. Ze heeft met meer dan dertig leidinggevenden op C-niveau gesproken en er komen er steeds meer bij, en bracht hun waardevolle inzichten naar de lezers. Cindy komt oorspronkelijk uit Singapore en is nu gevestigd in Tbilisi, Georgië. Ze heeft een bachelordiploma in communicatie- en mediastudies van de Universiteit van Zuid-Australië en heeft tien jaar ervaring in journalistiek en schrijven. Neem contact met haar op via [e-mail beveiligd] met perspitches, aankondigingen en interviewmogelijkheden.

De DOGE Frenzy: analyse van de recente waardestijging van Dogecoin (DOGE).

De cryptocurrency-industrie breidt zich snel uit en meme-munten bereiden zich voor op een aanzienlijke opleving. Dogecoin (DOGE), ...

Meer weten

De evolutie van door AI gegenereerde inhoud in de Metaverse

De opkomst van generatieve AI-inhoud is een van de meest fascinerende ontwikkelingen binnen de virtuele omgeving...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Galxe introduceert GAL Staking met een beloningspool van $5 miljoen, waardoor gebruikers voordelen kunnen ontvangen via Galxe Earn
Markten Nieuwsverslag Technologie
Galxe introduceert GAL Staking met een beloningspool van $5 miljoen, waardoor gebruikers voordelen kunnen ontvangen via Galxe Earn
24 april 2024
Web3 Aanbieder van data-infrastructuur Syntropy verandert van merk naar Synternet en stemt zijn uiterlijk af op technische vooruitgang
Business Nieuwsverslag Technologie
Web3 Aanbieder van data-infrastructuur Syntropy verandert van merk naar Synternet en stemt zijn uiterlijk af op technische vooruitgang
24 april 2024
Dexalot lanceert zijn centrale limietorderboek, gedecentraliseerde uitwisseling op arbitrum
Markten Nieuwsverslag Technologie
Dexalot lanceert zijn centrale limietorderboek, gedecentraliseerde uitwisseling op arbitrum
24 april 2024
Puffverse haalt $3 miljoen op voor de ontwikkeling van zijn PuffGo-partygame en kondigt portfoliomigratie naar Ronin aan
Business Nieuwsverslag Technologie
Puffverse haalt $3 miljoen op voor de ontwikkeling van zijn PuffGo-partygame en kondigt portfoliomigratie naar Ronin aan
24 april 2024