OpenAI Oznamuje Evals, softwarový rámec s otevřeným zdrojovým kódem pro hodnocení modelů umělé inteligence
Stručně
OpenAI doufá, že crowdsourcing benchmarků pro hodnocení modelů AI jako GPT-4.
Společnost pro zpracování plateb, Stripe, již použila Evals k měření jejich přesnosti GPT-poháněný dokumentační nástroj.
OpenAI bude udělovat GPT-4 přístup po omezenou dobu těm, kteří přispívají vysoce kvalitními hodnoceními.
Spolu s oznámením GPT-4, OpenAI oznámila open-source softwarový rámec OpenAI Evals. Tento nástroj je určen k vytváření a spouštění benchmarků, které hodnotí výkon modelů jako GPT-4. S Evalsem, OpenAI doufá, že crowdsourcing benchmarků pro testování modelů AI.
„Používáme Evals k vedení vývoje našich modelů (jak k identifikaci nedostatků, tak k prevenci regresí) a naši uživatelé je mohou použít pro sledování výkonu napříč verzemi modelů (které budou nyní pravidelně vycházet) a vyvíjející se integrace produktů,“ vysvětluje společnost A blogu.
Stripe, populární společnost zabývající se zpracováním plateb, již použila Evals k doplnění svých lidských hodnocení a měření jejich přesnosti GPT-poháněný dokumentační nástroj.
Vývojáři mohou používat Evals k vytváření a spouštění hodnocení, které:
- Použijte datové sady ke generování výzev,
- Změřte kvalitu dokončení poskytovaných a OpenAI model, a
- Porovnejte výkon napříč různými datovými sadami a modely.
S otevřeným zdrojovým kódem mohou vývojáři také napsat a přidat a vlastní Eval jakož i několik šablon které mohou odpovídat různým měřítkům. Společnost zahrnula šablony, které byly interně nejužitečnější, včetně šablony pro „hodnoty hodnocené podle modelu“, které GPT-4 může použít ke kontrole své vlastní práce. Jako příklad k následování společnost vytvořila logické hádanky eval obsahující deset výzev kde GPT-4 nezdaří.
Evals je také kompatibilní s implementací stávajících benchmarků, včetně několika notebooků implementujících akademické benchmarky a několika variant integrace malých podmnožin CoQA.
Vývojáři nebudou za přispění Evalů placeni, OpenAI bude udělovat GPT-4 přístup po omezenou dobu těm, kteří přispívají „vysoce kvalitními výsledky“.
Oznámení Evals přichází poté OpenAI nedávno řekl přestala by používat data odeslaná zákazníky prostřednictvím svého rozhraní API k trénování nebo vylepšení svých modelů, pokud se zákazníci nerozhodnou zapojit se. Společnost se připojuje k Meta v testech crowdsourcingu, protože posledně jmenovaný úkoluje lidi „nacházet nepřátelské příklady, které oklamou současný stav -umělecké modely“ za své DynaBench platforma.
Čtěte více:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Cindy je novinářka v Metaverse Post, pokrývající témata související s web3, NFT, metaverse a AI, se zaměřením na rozhovory s Web3 hráči v oboru. Mluvila s více než 30 manažery na úrovni C a počítání a přinesla jejich cenné poznatky čtenářům. Cindy pochází ze Singapuru a nyní sídlí v Tbilisi v Gruzii. Je držitelkou bakalářského titulu v oboru komunikačních a mediálních studií na University of South Australia a má desetileté zkušenosti v žurnalistice a psaní. Spojte se s ní přes [chráněno e-mailem] s tiskovými nabídkami, oznámeními a příležitostmi k rozhovorům.
Další článkyCindy je novinářka v Metaverse Post, pokrývající témata související s web3, NFT, metaverse a AI, se zaměřením na rozhovory s Web3 hráči v oboru. Mluvila s více než 30 manažery na úrovni C a počítání a přinesla jejich cenné poznatky čtenářům. Cindy pochází ze Singapuru a nyní sídlí v Tbilisi v Gruzii. Je držitelkou bakalářského titulu v oboru komunikačních a mediálních studií na University of South Australia a má desetileté zkušenosti v žurnalistice a psaní. Spojte se s ní přes [chráněno e-mailem] s tiskovými nabídkami, oznámeními a příležitostmi k rozhovorům.