OpenAI Tillkännager Evals, ett ramverk för öppen källkod för utvärdering av AI-modeller
I korthet
OpenAI hoppas kunna crowdsource riktmärken för att utvärdera AI-modeller som GPT-4.
Betalningshanteringsföretaget Stripe har redan använt Evals för att mäta noggrannheten i deras GPT-drivet dokumentationsverktyg.
OpenAI kommer att bevilja GPT-4 tillgång under en begränsad tid till dem som bidrar med högkvalitativa utvärderingar.
Vid sidan av tillkännagivandet av GPT-4, OpenAI har tillkännagett ramverket för öppen källkod OpenAI Evals. Det här verktyget är utformat för att skapa och köra benchmarks som utvärderar prestandan för modeller som GPT-4. med Evals, OpenAI hoppas kunna crowdsource riktmärken för testning av AI-modeller.
"Vi använder Evals för att vägleda utvecklingen av våra modeller (både identifiera brister och förhindra regressioner), och våra användare kan använda det för att spåra prestanda över modellversioner (som nu kommer ut regelbundet) och utvecklande produktintegrationer", förklarar företaget i a blogginlägg.
Stripe, ett populärt betalningshanteringsföretag, har redan använt Evals för att komplettera sina mänskliga utvärderingar och mäta noggrannheten i deras GPT-drivet dokumentationsverktyg.
Utvecklare kan använda Evals för att skapa och köra utvärderingar som:
- Använd datauppsättningar för att generera uppmaningar,
- Mät kvaliteten på avslutningar som tillhandahålls av en OpenAI modelloch
- Jämför prestanda mellan olika datamängder och modeller.
Med öppen källkod kan utvecklare också skriva och lägga till en anpassad Eval såväl som flera mallar som kan passa olika riktmärken. Företaget har inkluderat mallar som har varit mest användbara internt, inklusive en mall för "modellgraderade evaler", som GPT-4 kan använda för att kontrollera sitt eget arbete. Som ett exempel att följa har företaget skapat en eval för logiska pussel som innehåller tio uppmaningar där GPT-4 misslyckas.
Evals är också kompatibelt med att implementera befintliga riktmärken, inklusive flera bärbara datorer som implementerar akademiska riktmärken och några varianter av att integrera små delmängder av CoQA.
Även om utvecklare inte kommer att få betalt för att bidra med Evals, OpenAI kommer att bevilja GPT-4 tillgång under en begränsad tid till de som bidrar med "utvärderingar av hög kvalitet".
Tillkännagivandet av Evals kommer efter OpenAI sade nyligen det skulle sluta använda data som lämnats in av kunder via dess API för att träna eller förbättra sina modeller såvida inte kunderna beslutar sig för att delta. Företaget ansluter sig till Meta i riktmärken för crowdsourcing eftersom det sistnämnda ger människor i uppdrag att ”hitta motstridiga exempel som lurar nuvarande tillstånd -konstmodeller” för sin DynaBench plattformen.
Läs mer:
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Cindy är journalist på Metaverse Post, som täcker ämnen relaterade till web3, NFT, metaverse och AI, med fokus på intervjuer med Web3 branschaktörer. Hon har pratat med över 30 chefer på C-nivå och har gett sina värdefulla insikter till läsarna. Cindy kommer ursprungligen från Singapore och är nu baserad i Tbilisi, Georgia. Hon har en kandidatexamen i kommunikations- och mediestudier från University of South Australia och har ett decenniums erfarenhet av journalistik och skrivande. Ta kontakt med henne via [e-postskyddad] med presstitlar, tillkännagivanden och intervjutillfällen.
fler artiklarCindy är journalist på Metaverse Post, som täcker ämnen relaterade till web3, NFT, metaverse och AI, med fokus på intervjuer med Web3 branschaktörer. Hon har pratat med över 30 chefer på C-nivå och har gett sina värdefulla insikter till läsarna. Cindy kommer ursprungligen från Singapore och är nu baserad i Tbilisi, Georgia. Hon har en kandidatexamen i kommunikations- och mediestudier från University of South Australia och har ett decenniums erfarenhet av journalistik och skrivande. Ta kontakt med henne via [e-postskyddad] med presstitlar, tillkännagivanden och intervjutillfällen.