OpenAI Napoveduje Evals, odprtokodno programsko ogrodje za ocenjevanje modelov AI
Na kratko
OpenAI upa, da bo množično pridobil merila uspešnosti za ocenjevanje modelov umetne inteligence, kot je GPT-4.
Podjetje za obdelavo plačil Stripe je že uporabilo Evals za merjenje natančnosti svojih GPT-pogonsko dokumentacijsko orodje.
OpenAI bo podeljeval GPT-4 dostop za omejen čas tistim, ki prispevajo visoko kakovostne ocene.
Poleg objave o GPT-4, OpenAI je napovedal ogrodje odprtokodne programske opreme OpenAI Evals. To orodje je zasnovano za ustvarjanje in izvajanje meril uspešnosti, ki ocenjujejo delovanje modelov, kot je GPT-4. Z Evals, OpenAI upa, da bo pridobil merila uspešnosti za testiranje modelov umetne inteligence.
»Evals uporabljamo za usmerjanje razvoja naših modelov (tako za odkrivanje pomanjkljivosti kot za preprečevanje regresij), naši uporabniki pa ga lahko uporabijo za sledenje uspešnosti med različicami modelov (ki bodo zdaj redno izhajali) in razvijajoče se integracije izdelkov,« pojasnjuje podjetje v a blog post.
Stripe, priljubljeno podjetje za obdelavo plačil, je že uporabilo Evals za dopolnitev svojih človeških ocen in merjenje točnosti njihovih GPT-pogonsko dokumentacijsko orodje.
Razvijalci lahko uporabljajo Evals za ustvarjanje in izvajanje ocen, ki:
- Uporabite nize podatkov za ustvarjanje pozivov,
- Izmerite kakovost zaključkov, ki jih zagotavlja an OpenAI Modelin
- Primerjajte zmogljivost različnih naborov podatkov in modelov.
Z odprtokodno kodo lahko razvijalci tudi napišejo in dodajo a po meri Eval tako dobro, kot več predlog ki lahko ustreza različnim merilom. Podjetje je vključilo predloge, ki so bile najbolj uporabne interno, vključno s predlogo za »modelno razvrščene ocene«, ki GPT-4 lahko uporabi za preverjanje lastnega dela. Kot primer, ki mu je treba slediti, je podjetje ustvarilo eval logičnih ugank, ki vsebuje deset pozivov kje GPT-4 ne uspe.
Evals je združljiv tudi z izvajanjem obstoječih meril uspešnosti, vključno z več zvezki, ki izvajajo akademska merila uspešnosti, in nekaj različicami integracije majhnih podnaborov CoQA.
Čeprav razvijalci ne bodo plačani za prispevanje Evals, OpenAI bo podeljeval GPT-4 dostop za omejen čas tistim, ki prispevajo »visokokakovostne ocene«.
Napoved Evalsa sledi OpenAI je pred kratkim dejal, prenehalo bi uporabljati podatke, ki bi jih stranke posredovale prek svojega API-ja, za usposabljanje ali izboljšanje svojih modelov, razen če bi se stranke odločile za to. Podjetje se pridružuje Meti pri merilih uspešnosti množičnega izvajanja, saj slednja ljudem nalaga nalogo »iskanje kontradiktornih primerov, ki zavajajo trenutno stanje -art modelov« za svoje DynaBench platforma.
Preberite več:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Cindy je novinarka pri Metaverse Post, ki pokriva teme, povezane z web3, NFT, metaverse in AI, s poudarkom na intervjujih z Web3 akterji v industriji. Pogovarjala se je z več kot 30 vodstvenimi delavci na ravni C in jih je še vedno več, pri čemer je bralcem posredovala njihove dragocene vpoglede. Cindy, ki izvira iz Singapurja, je zdaj v Tbilisiju v Gruziji. Ima diplomo iz komunikacijskih in medijskih študij na Univerzi v Južni Avstraliji in ima desetletje izkušenj z novinarstvom in pisanjem. Stopite v stik z njo prek [e-pošta zaščitena] z novinarskimi predstavitvami, napovedmi in priložnostmi za intervjuje.
več člankovCindy je novinarka pri Metaverse Post, ki pokriva teme, povezane z web3, NFT, metaverse in AI, s poudarkom na intervjujih z Web3 akterji v industriji. Pogovarjala se je z več kot 30 vodstvenimi delavci na ravni C in jih je še vedno več, pri čemer je bralcem posredovala njihove dragocene vpoglede. Cindy, ki izvira iz Singapurja, je zdaj v Tbilisiju v Gruziji. Ima diplomo iz komunikacijskih in medijskih študij na Univerzi v Južni Avstraliji in ima desetletje izkušenj z novinarstvom in pisanjem. Stopite v stik z njo prek [e-pošta zaščitena] z novinarskimi predstavitvami, napovedmi in priložnostmi za intervjuje.