Nyhetsrapport Teknologi
Mars 16, 2023

OpenAI Tillkännager Evals, ett ramverk för öppen källkod för utvärdering av AI-modeller

I korthet

OpenAI hoppas kunna crowdsource riktmärken för att utvärdera AI-modeller som GPT-4.

Betalningshanteringsföretaget Stripe har redan använt Evals för att mäta noggrannheten i deras GPT-drivet dokumentationsverktyg.

OpenAI kommer att bevilja GPT-4 tillgång under en begränsad tid till dem som bidrar med högkvalitativa utvärderingar.

OpenAI Tillkännager Evals, ett ramverk för öppen källkod för utvärdering av AI-modeller

Vid sidan av tillkännagivandet av GPT-4, OpenAI har tillkännagett ramverket för öppen källkod OpenAI Evals. Det här verktyget är utformat för att skapa och köra benchmarks som utvärderar prestandan för modeller som GPT-4. med Evals, OpenAI hoppas kunna crowdsource riktmärken för testning av AI-modeller. 

"Vi använder Evals för att vägleda utvecklingen av våra modeller (både identifiera brister och förhindra regressioner), och våra användare kan använda det för att spåra prestanda över modellversioner (som nu kommer ut regelbundet) och utvecklande produktintegrationer", förklarar företaget i a blogginlägg.

Stripe, ett populärt betalningshanteringsföretag, har redan använt Evals för att komplettera sina mänskliga utvärderingar och mäta noggrannheten i deras GPT-drivet dokumentationsverktyg.

Utvecklare kan använda Evals för att skapa och köra utvärderingar som:

  • Använd datauppsättningar för att generera uppmaningar,
  • Mät kvaliteten på avslutningar som tillhandahålls av en OpenAI modelloch
  • Jämför prestanda mellan olika datamängder och modeller.

Med öppen källkod kan utvecklare också skriva och lägga till en anpassad Eval såväl som flera mallar som kan passa olika riktmärken. Företaget har inkluderat mallar som har varit mest användbara internt, inklusive en mall för "modellgraderade evaler", som GPT-4 kan använda för att kontrollera sitt eget arbete. Som ett exempel att följa har företaget skapat en eval för logiska pussel som innehåller tio uppmaningar där GPT-4 misslyckas.

Evals är också kompatibelt med att implementera befintliga riktmärken, inklusive flera bärbara datorer som implementerar akademiska riktmärken och några varianter av att integrera små delmängder av CoQA.

Även om utvecklare inte kommer att få betalt för att bidra med Evals, OpenAI kommer att bevilja GPT-4 tillgång under en begränsad tid till de som bidrar med "utvärderingar av hög kvalitet". 

Tillkännagivandet av Evals kommer efter OpenAI sade nyligen det skulle sluta använda data som lämnats in av kunder via dess API för att träna eller förbättra sina modeller såvida inte kunderna beslutar sig för att delta. Företaget ansluter sig till Meta i riktmärken för crowdsourcing eftersom det sistnämnda ger människor i uppdrag att ”hitta motstridiga exempel som lurar nuvarande tillstånd -konstmodeller” för sin DynaBench plattformen.

Läs mer:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Cindy är journalist på Metaverse Post, som täcker ämnen relaterade till web3, NFT, metaverse och AI, med fokus på intervjuer med Web3 branschaktörer. Hon har pratat med över 30 chefer på C-nivå och har gett sina värdefulla insikter till läsarna. Cindy kommer ursprungligen från Singapore och är nu baserad i Tbilisi, Georgia. Hon har en kandidatexamen i kommunikations- och mediestudier från University of South Australia och har ett decenniums erfarenhet av journalistik och skrivande. Ta kontakt med henne via [e-postskyddad] med presstitlar, tillkännagivanden och intervjutillfällen.

fler artiklar
Cindy Tan
Cindy Tan

Cindy är journalist på Metaverse Post, som täcker ämnen relaterade till web3, NFT, metaverse och AI, med fokus på intervjuer med Web3 branschaktörer. Hon har pratat med över 30 chefer på C-nivå och har gett sina värdefulla insikter till läsarna. Cindy kommer ursprungligen från Singapore och är nu baserad i Tbilisi, Georgia. Hon har en kandidatexamen i kommunikations- och mediestudier från University of South Australia och har ett decenniums erfarenhet av journalistik och skrivande. Ta kontakt med henne via [e-postskyddad] med presstitlar, tillkännagivanden och intervjutillfällen.

Hot Stories

BRICS Nations Eye Stablecoin Trade Solution

by Viktoriia Palchik
Maj 01, 2024
Gå med i vårt nyhetsbrev.
Senaste nytt

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer

Samourai Wallet-grundare anklagade för att underlätta $2 miljarder i Darknet-erbjudanden

Uppfattningen av Samourai Wallet-grundarna representerar ett anmärkningsvärt bakslag för branschen, vilket understryker den ihållande ...

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Ankr samarbetar med AI Blockchain Platform Talus Network för att låsa upp Bitcoin-likviditet för AI
Företag Nyhetsrapport Teknologi
Ankr samarbetar med AI Blockchain Platform Talus Network för att låsa upp Bitcoin-likviditet för AI
Maj 1, 2024
Binance Labs stödjer Movement Labs för att underlätta Facebooks Move-integration över blockkedjor
Företag Nyhetsrapport Teknologi
Binance Labs stödjer Movement Labs för att underlätta Facebooks Move-integration över blockkedjor
Maj 1, 2024
BRICS Nations Eye Stablecoin Trade Solution
Företag Marknader Berättelser och recensioner Teknologi
BRICS Nations Eye Stablecoin Trade Solution
Maj 1, 2024
Bitcoin L2 Network BOB integreras med LayerZero för förbättrad funktionalitet
Företag Nyhetsrapport Teknologi
Bitcoin L2 Network BOB integreras med LayerZero för förbättrad funktionalitet
Maj 1, 2024