OpenAI Annoncerer Evals, et open source-softwarerammeværk til evaluering af AI-modeller
Kort sagt
OpenAI håber at crowdsource benchmarks til evaluering af AI-modeller som GPT-4.
Betalingsbehandlingsfirmaet Stripe har allerede brugt Evals til at måle nøjagtigheden af deres GPT-drevet dokumentationsværktøj.
OpenAI vil bevilge GPT-4 adgang i en begrænset periode til dem, der bidrager med evalueringer af høj kvalitet.
Sideløbende med annonceringen af GPT-4, OpenAI har annonceret open source-softwarerammerne OpenAI Evals. Dette værktøj er designet til at skabe og køre benchmarks, der evaluerer ydeevnen af modeller som f.eks GPT-4. med Evals, OpenAI håber at crowdsource benchmarks til AI-modeltest.
"Vi bruger Evals til at guide udviklingen af vores modeller (både identificere mangler og forhindre regression), og vores brugere kan anvende det til at spore ydeevne på tværs af modelversioner (som nu vil udkomme regelmæssigt) og udviklende produktintegrationer," forklarer virksomheden i -en blogindlæg.
Stripe, et populært betalingsforarbejdningsfirma, har allerede brugt Evals til at supplere sine menneskelige evalueringer og måle nøjagtigheden af deres GPT-drevet dokumentationsværktøj.
Udviklere kan bruge Evals til at oprette og køre evalueringer, der:
- Brug datasæt til at generere prompter,
- Mål kvaliteten af færdiggørelser leveret af en OpenAI modelog
- Sammenlign ydeevne på tværs af forskellige datasæt og modeller.
Med open source-koden kan udviklere også skrive og tilføje en brugerdefineret Eval samt flere skabeloner der kan rumme forskellige benchmarks. Virksomheden har inkluderet skabeloner, der har været mest nyttige internt, herunder en skabelon til "model-graded evals", som GPT-4 kan bruge til at kontrollere sit eget arbejde. Som et eksempel til efterfølgelse, har virksomheden lavet en logisk puslespil eval indeholdende ti prompter hvor GPT-4 mislykkes.
Evals er også kompatibel med implementering af eksisterende benchmarks, herunder adskillige notebooks, der implementerer akademiske benchmarks og nogle få variationer af integration af små undergrupper af CoQA.
Selvom udviklere ikke vil blive betalt for at bidrage med Evals, OpenAI vil bevilge GPT-4 adgang i en begrænset periode til dem, der bidrager med "evaler af høj kvalitet."
Annonceringen af Evals kommer efter OpenAI sagde for nylig det ville holde op med at bruge data indsendt af kunder via dets API til at træne eller forbedre sine modeller, medmindre kunderne beslutter sig for at tilmelde sig. Virksomheden slutter sig til Meta i crowdsourcing benchmarks, da sidstnævnte pålægger mennesker at "finde modstridende eksempler, der narrer den nuværende tilstand af -kunstmodeller” for sin DynaBench perron.
Læs mere:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Cindy er journalist på Metaverse Post, der dækker emner relateret til web3, NFT, metaverse og AI, med fokus på interviews med Web3 industriens aktører. Hun har talt med over 30 ledere på C-niveau, og hun har bragt deres værdifulde indsigt til læserne. Oprindeligt fra Singapore, Cindy er nu baseret i Tbilisi, Georgia. Hun har en bachelorgrad i kommunikations- og mediestudier fra University of South Australia og har ti års erfaring med journalistik og forfatterskab. Kontakt hende via [e-mail beskyttet] med pressepitches, annonceringer og interviewmuligheder.
Flere artiklerCindy er journalist på Metaverse Post, der dækker emner relateret til web3, NFT, metaverse og AI, med fokus på interviews med Web3 industriens aktører. Hun har talt med over 30 ledere på C-niveau, og hun har bragt deres værdifulde indsigt til læserne. Oprindeligt fra Singapore, Cindy er nu baseret i Tbilisi, Georgia. Hun har en bachelorgrad i kommunikations- og mediestudier fra University of South Australia og har ti års erfaring med journalistik og forfatterskab. Kontakt hende via [e-mail beskyttet] med pressepitches, annonceringer og interviewmuligheder.