Novinky Technika
16. března 2023

OpenAI Oznamuje Evals, softwarový rámec s otevřeným zdrojovým kódem pro hodnocení modelů umělé inteligence

Stručně

OpenAI doufá, že crowdsourcing benchmarků pro hodnocení modelů AI jako GPT-4.

Společnost pro zpracování plateb, Stripe, již použila Evals k měření jejich přesnosti GPT-poháněný dokumentační nástroj.

OpenAI bude udělovat GPT-4 přístup po omezenou dobu těm, kteří přispívají vysoce kvalitními hodnoceními.

OpenAI Oznamuje Evals, softwarový rámec s otevřeným zdrojovým kódem pro hodnocení modelů umělé inteligence

Spolu s oznámením GPT-4, OpenAI oznámila open-source softwarový rámec OpenAI Evals. Tento nástroj je určen k vytváření a spouštění benchmarků, které hodnotí výkon modelů jako GPT-4. S Evalsem, OpenAI doufá, že crowdsourcing benchmarků pro testování modelů AI. 

„Používáme Evals k vedení vývoje našich modelů (jak k identifikaci nedostatků, tak k prevenci regresí) a naši uživatelé je mohou použít pro sledování výkonu napříč verzemi modelů (které budou nyní pravidelně vycházet) a vyvíjející se integrace produktů,“ vysvětluje společnost A blogu.

Stripe, populární společnost zabývající se zpracováním plateb, již použila Evals k doplnění svých lidských hodnocení a měření jejich přesnosti GPT-poháněný dokumentační nástroj.

Vývojáři mohou používat Evals k vytváření a spouštění hodnocení, které:

  • Použijte datové sady ke generování výzev,
  • Změřte kvalitu dokončení poskytovaných a OpenAI model, a
  • Porovnejte výkon napříč různými datovými sadami a modely.

S otevřeným zdrojovým kódem mohou vývojáři také napsat a přidat a vlastní Eval jakož i několik šablon které mohou odpovídat různým měřítkům. Společnost zahrnula šablony, které byly interně nejužitečnější, včetně šablony pro „hodnoty hodnocené podle modelu“, které GPT-4 může použít ke kontrole své vlastní práce. Jako příklad k následování společnost vytvořila logické hádanky eval obsahující deset výzev kde GPT-4 nezdaří.

Evals je také kompatibilní s implementací stávajících benchmarků, včetně několika notebooků implementujících akademické benchmarky a několika variant integrace malých podmnožin CoQA.

Vývojáři nebudou za přispění Evalů placeni, OpenAI bude udělovat GPT-4 přístup po omezenou dobu těm, kteří přispívají „vysoce kvalitními výsledky“. 

Oznámení Evals přichází poté OpenAI nedávno řekl přestala by používat data odeslaná zákazníky prostřednictvím svého rozhraní API k trénování nebo vylepšení svých modelů, pokud se zákazníci nerozhodnou zapojit se. Společnost se připojuje k Meta v testech crowdsourcingu, protože posledně jmenovaný úkoluje lidi „nacházet nepřátelské příklady, které oklamou současný stav -umělecké modely“ za své DynaBench platforma.

Čtěte více:

Tagy:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Cindy je novinářka v Metaverse Post, pokrývající témata související s web3, NFT, metaverse a AI, se zaměřením na rozhovory s Web3 hráči v oboru. Mluvila s více než 30 manažery na úrovni C a počítání a přinesla jejich cenné poznatky čtenářům. Cindy pochází ze Singapuru a nyní sídlí v Tbilisi v Gruzii. Je držitelkou bakalářského titulu v oboru komunikačních a mediálních studií na University of South Australia a má desetileté zkušenosti v žurnalistice a psaní. Spojte se s ní přes [chráněno e-mailem] s tiskovými nabídkami, oznámeními a příležitostmi k rozhovorům.

Další články
Cindy Tan
Cindy Tan

Cindy je novinářka v Metaverse Post, pokrývající témata související s web3, NFT, metaverse a AI, se zaměřením na rozhovory s Web3 hráči v oboru. Mluvila s více než 30 manažery na úrovni C a počítání a přinesla jejich cenné poznatky čtenářům. Cindy pochází ze Singapuru a nyní sídlí v Tbilisi v Gruzii. Je držitelkou bakalářského titulu v oboru komunikačních a mediálních studií na University of South Australia a má desetileté zkušenosti v žurnalistice a psaní. Spojte se s ní přes [chráněno e-mailem] s tiskovými nabídkami, oznámeními a příležitostmi k rozhovorům.

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více

Zakladatelé peněženky Samourai byli obviněni z usnadňování 2 miliard dolarů v obchodech Darknet

Obavy zakladatelů Peněženky Samourai představují pro průmysl významnou překážku, která podtrhuje přetrvávající ...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Ankr spolupracuje s platformou AI Blockchain Talus Network na odblokování bitcoinové likvidity pro AI
Business Novinky Technika
Ankr spolupracuje s platformou AI Blockchain Talus Network na odblokování bitcoinové likvidity pro AI
1
Binance Labs podporuje Movement Labs, aby usnadnila integraci pohybu Facebooku napříč blockchainy
Business Novinky Technika
Binance Labs podporuje Movement Labs, aby usnadnila integraci pohybu Facebooku napříč blockchainy
1
BRICS Nations Eye Stablecoin obchodní řešení
Business Trhy Příběhy a recenze Technika
BRICS Nations Eye Stablecoin obchodní řešení
1
Bitcoin L2 Network BOB se integruje s LayerZero pro vylepšenou funkčnost
Business Novinky Technika
Bitcoin L2 Network BOB se integruje s LayerZero pro vylepšenou funkčnost
1
CRYPTOMERIA LABS PTE. LTD.