Nyheds rapport Teknologier
Marts 16, 2023

OpenAI Annoncerer Evals, et open source-softwarerammeværk til evaluering af AI-modeller

Kort sagt

OpenAI håber at crowdsource benchmarks til evaluering af AI-modeller som GPT-4.

Betalingsbehandlingsfirmaet Stripe har allerede brugt Evals til at måle nøjagtigheden af ​​deres GPT-drevet dokumentationsværktøj.

OpenAI vil bevilge GPT-4 adgang i en begrænset periode til dem, der bidrager med evalueringer af høj kvalitet.

OpenAI Annoncerer Evals, et open source-softwarerammeværk til evaluering af AI-modeller

Sideløbende med annonceringen af GPT-4, OpenAI har annonceret open source-softwarerammerne OpenAI Evals. Dette værktøj er designet til at skabe og køre benchmarks, der evaluerer ydeevnen af ​​modeller som f.eks GPT-4. med Evals, OpenAI håber at crowdsource benchmarks til AI-modeltest. 

"Vi bruger Evals til at guide udviklingen af ​​vores modeller (både identificere mangler og forhindre regression), og vores brugere kan anvende det til at spore ydeevne på tværs af modelversioner (som nu vil udkomme regelmæssigt) og udviklende produktintegrationer," forklarer virksomheden i -en blogindlæg.

Stripe, et populært betalingsforarbejdningsfirma, har allerede brugt Evals til at supplere sine menneskelige evalueringer og måle nøjagtigheden af ​​deres GPT-drevet dokumentationsværktøj.

Udviklere kan bruge Evals til at oprette og køre evalueringer, der:

  • Brug datasæt til at generere prompter,
  • Mål kvaliteten af ​​færdiggørelser leveret af en OpenAI modelog
  • Sammenlign ydeevne på tværs af forskellige datasæt og modeller.

Med open source-koden kan udviklere også skrive og tilføje en brugerdefineret Eval samt flere skabeloner der kan rumme forskellige benchmarks. Virksomheden har inkluderet skabeloner, der har været mest nyttige internt, herunder en skabelon til "model-graded evals", som GPT-4 kan bruge til at kontrollere sit eget arbejde. Som et eksempel til efterfølgelse, har virksomheden lavet en logisk puslespil eval indeholdende ti prompter hvor GPT-4 mislykkes.

Evals er også kompatibel med implementering af eksisterende benchmarks, herunder adskillige notebooks, der implementerer akademiske benchmarks og nogle få variationer af integration af små undergrupper af CoQA.

Selvom udviklere ikke vil blive betalt for at bidrage med Evals, OpenAI vil bevilge GPT-4 adgang i en begrænset periode til dem, der bidrager med "evaler af høj kvalitet." 

Annonceringen af ​​Evals kommer efter OpenAI sagde for nylig det ville holde op med at bruge data indsendt af kunder via dets API til at træne eller forbedre sine modeller, medmindre kunderne beslutter sig for at tilmelde sig. Virksomheden slutter sig til Meta i crowdsourcing benchmarks, da sidstnævnte pålægger mennesker at "finde modstridende eksempler, der narrer den nuværende tilstand af -kunstmodeller” for sin DynaBench perron.

Læs mere:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Cindy er journalist på Metaverse Post, der dækker emner relateret til web3, NFT, metaverse og AI, med fokus på interviews med Web3 industriens aktører. Hun har talt med over 30 ledere på C-niveau, og hun har bragt deres værdifulde indsigt til læserne. Oprindeligt fra Singapore, Cindy er nu baseret i Tbilisi, Georgia. Hun har en bachelorgrad i kommunikations- og mediestudier fra University of South Australia og har ti års erfaring med journalistik og forfatterskab. Kontakt hende via [e-mail beskyttet] med pressepitches, annonceringer og interviewmuligheder.

Flere artikler
Cindy Tan
Cindy Tan

Cindy er journalist på Metaverse Post, der dækker emner relateret til web3, NFT, metaverse og AI, med fokus på interviews med Web3 industriens aktører. Hun har talt med over 30 ledere på C-niveau, og hun har bragt deres værdifulde indsigt til læserne. Oprindeligt fra Singapore, Cindy er nu baseret i Tbilisi, Georgia. Hun har en bachelorgrad i kommunikations- og mediestudier fra University of South Australia og har ti års erfaring med journalistik og forfatterskab. Kontakt hende via [e-mail beskyttet] med pressepitches, annonceringer og interviewmuligheder.

Hot Stories

BRICS Nations Eye Stablecoin Trade Solution

by Viktoria Palchik
Maj 01, 2024
Tilmeld dig vores nyhedsbrev.
Seneste Nyheder

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere

Samourai Wallet Founders anklaget for at facilitere $2B i Darknet-tilbud

Frygten fra Samourai Wallet-grundlæggerne repræsenterer et bemærkelsesværdigt tilbageslag for industrien, hvilket understreger den vedvarende ...

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Ankr samarbejder med AI Blockchain Platform Talus Network for at låse op for Bitcoin-likviditet til AI
Forretning Nyheds rapport Teknologier
Ankr samarbejder med AI Blockchain Platform Talus Network for at låse op for Bitcoin-likviditet til AI
Maj 1, 2024
Binance Labs understøtter Movement Labs for at lette Facebooks Move-integration på tværs af blockchains
Forretning Nyheds rapport Teknologier
Binance Labs understøtter Movement Labs for at lette Facebooks Move-integration på tværs af blockchains
Maj 1, 2024
BRICS Nations Eye Stablecoin Trade Solution
Forretning Markeder Historier og anmeldelser Teknologier
BRICS Nations Eye Stablecoin Trade Solution
Maj 1, 2024
Bitcoin L2 Network BOB integreres med LayerZero for forbedret funktionalitet
Forretning Nyheds rapport Teknologier
Bitcoin L2 Network BOB integreres med LayerZero for forbedret funktionalitet
Maj 1, 2024