Novice Tehnologija
Marec 16, 2023

OpenAI Napoveduje Evals, odprtokodno programsko ogrodje za ocenjevanje modelov AI

Na kratko

OpenAI upa, da bo množično pridobil merila uspešnosti za ocenjevanje modelov umetne inteligence, kot je GPT-4.

Podjetje za obdelavo plačil Stripe je že uporabilo Evals za merjenje natančnosti svojih GPT-pogonsko dokumentacijsko orodje.

OpenAI bo podeljeval GPT-4 dostop za omejen čas tistim, ki prispevajo visoko kakovostne ocene.

OpenAI Napoveduje Evals, odprtokodno programsko ogrodje za ocenjevanje modelov AI

Poleg objave o GPT-4, OpenAI je napovedal ogrodje odprtokodne programske opreme OpenAI Evals. To orodje je zasnovano za ustvarjanje in izvajanje meril uspešnosti, ki ocenjujejo delovanje modelov, kot je GPT-4. Z Evals, OpenAI upa, da bo pridobil merila uspešnosti za testiranje modelov umetne inteligence. 

»Evals uporabljamo za usmerjanje razvoja naših modelov (tako za odkrivanje pomanjkljivosti kot za preprečevanje regresij), naši uporabniki pa ga lahko uporabijo za sledenje uspešnosti med različicami modelov (ki bodo zdaj redno izhajali) in razvijajoče se integracije izdelkov,« pojasnjuje podjetje v a blog post.

Stripe, priljubljeno podjetje za obdelavo plačil, je že uporabilo Evals za dopolnitev svojih človeških ocen in merjenje točnosti njihovih GPT-pogonsko dokumentacijsko orodje.

Razvijalci lahko uporabljajo Evals za ustvarjanje in izvajanje ocen, ki:

  • Uporabite nize podatkov za ustvarjanje pozivov,
  • Izmerite kakovost zaključkov, ki jih zagotavlja an OpenAI Modelin
  • Primerjajte zmogljivost različnih naborov podatkov in modelov.

Z odprtokodno kodo lahko razvijalci tudi napišejo in dodajo a po meri Eval tako dobro, kot več predlog ki lahko ustreza različnim merilom. Podjetje je vključilo predloge, ki so bile najbolj uporabne interno, vključno s predlogo za »modelno razvrščene ocene«, ki GPT-4 lahko uporabi za preverjanje lastnega dela. Kot primer, ki mu je treba slediti, je podjetje ustvarilo eval logičnih ugank, ki vsebuje deset pozivov kje GPT-4 ne uspe.

Evals je združljiv tudi z izvajanjem obstoječih meril uspešnosti, vključno z več zvezki, ki izvajajo akademska merila uspešnosti, in nekaj različicami integracije majhnih podnaborov CoQA.

Čeprav razvijalci ne bodo plačani za prispevanje Evals, OpenAI bo podeljeval GPT-4 dostop za omejen čas tistim, ki prispevajo »visokokakovostne ocene«. 

Napoved Evalsa sledi OpenAI je pred kratkim dejal, prenehalo bi uporabljati podatke, ki bi jih stranke posredovale prek svojega API-ja, za usposabljanje ali izboljšanje svojih modelov, razen če bi se stranke odločile za to. Podjetje se pridružuje Meti pri merilih uspešnosti množičnega izvajanja, saj slednja ljudem nalaga nalogo »iskanje kontradiktornih primerov, ki zavajajo trenutno stanje -art modelov« za svoje DynaBench platforma.

Preberite več:

Tags:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Cindy je novinarka pri Metaverse Post, ki pokriva teme, povezane z web3, NFT, metaverse in AI, s poudarkom na intervjujih z Web3 akterji v industriji. Pogovarjala se je z več kot 30 vodstvenimi delavci na ravni C in jih je še vedno več, pri čemer je bralcem posredovala njihove dragocene vpoglede. Cindy, ki izvira iz Singapurja, je zdaj v Tbilisiju v Gruziji. Ima diplomo iz komunikacijskih in medijskih študij na Univerzi v Južni Avstraliji in ima desetletje izkušenj z novinarstvom in pisanjem. Stopite v stik z njo prek [e-pošta zaščitena] z novinarskimi predstavitvami, napovedmi in priložnostmi za intervjuje.

več člankov
Cindy Tan
Cindy Tan

Cindy je novinarka pri Metaverse Post, ki pokriva teme, povezane z web3, NFT, metaverse in AI, s poudarkom na intervjujih z Web3 akterji v industriji. Pogovarjala se je z več kot 30 vodstvenimi delavci na ravni C in jih je še vedno več, pri čemer je bralcem posredovala njihove dragocene vpoglede. Cindy, ki izvira iz Singapurja, je zdaj v Tbilisiju v Gruziji. Ima diplomo iz komunikacijskih in medijskih študij na Univerzi v Južni Avstraliji in ima desetletje izkušenj z novinarstvom in pisanjem. Stopite v stik z njo prek [e-pošta zaščitena] z novinarskimi predstavitvami, napovedmi in priložnostmi za intervjuje.

Hot Stories
Pridružite se našemu glasilu.
Zadnje novice

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem

Ustanovitelji denarnice Samourai Wallet obtoženi omogočanja 2 milijard dolarjev pri poslih Darknet

Zaskrbljenost ustanoviteljev denarnice Samourai Wallet predstavlja opazno nazadovanje za industrijo, ki poudarja vztrajno ...

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Ankr sodeluje s platformo AI Blockchain Talus Network za odklepanje likvidnosti bitcoinov za AI
ŽELITE POSTATI PARTNER Novice Tehnologija
Ankr sodeluje s platformo AI Blockchain Talus Network za odklepanje likvidnosti bitcoinov za AI
Maj 1, 2024
Binance Labs podpira Movement Labs, da bi olajšal Facebookovo integracijo Move v verigah blokov
ŽELITE POSTATI PARTNER Novice Tehnologija
Binance Labs podpira Movement Labs, da bi olajšal Facebookovo integracijo Move v verigah blokov
Maj 1, 2024
BRICS Nations Eye Rešitev za trgovanje s stabilnimi kovanci
ŽELITE POSTATI PARTNER Prisotnost Zgodbe in ocene Tehnologija
BRICS Nations Eye Rešitev za trgovanje s stabilnimi kovanci
Maj 1, 2024
Bitcoin L2 omrežje BOB se integrira z LayerZero za izboljšano funkcionalnost
ŽELITE POSTATI PARTNER Novice Tehnologija
Bitcoin L2 omrežje BOB se integrira z LayerZero za izboljšano funkcionalnost
Maj 1, 2024
CRYPTOMERIA LABS PTE. LTD.