Tudósítást Technológia
Március 16, 2023

OpenAI Bejelenti az Evalst, egy nyílt forráskódú szoftverkeretet az AI-modellek értékeléséhez

Röviden

OpenAI reméli, hogy összegyűjti a referenciaértékeket az olyan AI-modellek értékeléséhez, mint például GPT-4.

A fizetésfeldolgozó cég, a Stripe már használta az Evals-t, hogy mérje a fizetések pontosságát GPT-motoros dokumentációs eszköz.

OpenAI megadni fogja GPT-4 korlátozott ideig elérhető azok számára, akik magas színvonalú eval.

OpenAI Bejelenti az Evalst, egy nyílt forráskódú szoftverkeretet az AI-modellek értékeléséhez

A bejelentés mellett GPT-4, OpenAI bejelentette a nyílt forráskódú szoftverkeretrendszert OpenAI Evals. Ezt az eszközt olyan benchmarkok létrehozására és futtatására tervezték, amelyek értékelik az olyan modellek teljesítményét, mint például GPT-4. Evalsszal, OpenAI reméli, hogy összegyűjti a benchmarkokat az AI-modell teszteléséhez. 

„Az Evals-t használjuk modelljeink fejlesztésének irányítására (a hiányosságok azonosítására és a regressziók megelőzésére egyaránt), és a felhasználóink ​​felhasználhatják a modellverziók teljesítményének nyomon követésére (amelyek most rendszeresen megjelennek) és a fejlődő termékintegrációkra” – magyarázza a vállalat. a blogbejegyzés.

A Stripe, a népszerű fizetésfeldolgozó cég már használta az Evals-t emberi értékelései kiegészítésére és a fizetések pontosságának mérésére. GPT-motoros dokumentációs eszköz.

A fejlesztők az Evals segítségével olyan értékeléseket hozhatnak létre és futtathatnak, amelyek:

  • Adatkészletek használata promptok generálásához,
  • Mérje meg a befejezések minőségét egy OpenAI modellés
  • Hasonlítsa össze a teljesítményt a különböző adatkészletek és modellek között.

A nyílt forráskóddal a fejlesztők írhatnak és hozzáadhatnak a egyéni Eval szintén több sablon amelyek különböző benchmarkokat fogadhatnak el. A vállalat olyan sablonokat tartalmazott, amelyek belsőleg a leghasznosabbak voltak, beleértve egy sablont a „modell szerinti értékelésekhez”, amelyek GPT-4 segítségével ellenőrizheti saját munkáját. Követendő példaként a cég elkészített egy logikai feladványt, amely tíz utasítást tartalmaz, ahol GPT-4 sikertelen.

Az Evals kompatibilis a meglévő benchmarkok megvalósításával is, beleértve az akadémiai benchmarkokat megvalósító notebookokat és a CoQA kis részhalmazainak integrálásának néhány változatát.

Bár a fejlesztők nem kapnak pénzt az Evals közreműködéséért, OpenAI megadni fogja GPT-4 korlátozott ideig hozzáférést biztosít azok számára, akik „kiváló minőségű evals-okhoz” járulnak hozzá. 

Az Evals bejelentése ezután következik OpenAI nemrég azt mondta, leállítaná az ügyfelek által az API-n keresztül benyújtott adatok felhasználását modelljei betanítására vagy fejlesztésére, hacsak az ügyfelek nem döntenek a részvétel mellett. A vállalat csatlakozik a Metához a crowdsourcing benchmarkokban, mivel ez utóbbi feladata az embereknek „találnia a jelenlegi helyzetet megtévesztő ellentétes példákat -art modellek” számára DynaBench platform.

Bővebben:

Címkék:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Cindy újságíró a cégnél Metaverse Post, amelyhez kapcsolódó témákat fed fel web3, NFT, metaverzum és mesterséges intelligencia, különös tekintettel a vele készült interjúkra Web3 iparági szereplők. Több mint 30 C-szintű vezetővel beszélt, akik értékes ismereteiket juttatták el az olvasókhoz. Az eredetileg Szingapúrból származó Cindy jelenleg Tbilisziben, Grúziában él. Kommunikáció és médiatudomány szakon szerzett alapdiplomát a Dél-ausztrál Egyetemen, és több évtizedes tapasztalattal rendelkezik az újságírás és az írás terén. Vedd fel vele a kapcsolatot ezen keresztül [e-mail védett] sajtóbemutatókkal, közleményekkel és interjúlehetőségekkel.

További cikkek
Cindy Tan
Cindy Tan

Cindy újságíró a cégnél Metaverse Post, amelyhez kapcsolódó témákat fed fel web3, NFT, metaverzum és mesterséges intelligencia, különös tekintettel a vele készült interjúkra Web3 iparági szereplők. Több mint 30 C-szintű vezetővel beszélt, akik értékes ismereteiket juttatták el az olvasókhoz. Az eredetileg Szingapúrból származó Cindy jelenleg Tbilisziben, Grúziában él. Kommunikáció és médiatudomány szakon szerzett alapdiplomát a Dél-ausztrál Egyetemen, és több évtizedes tapasztalattal rendelkezik az újságírás és az írás terén. Vedd fel vele a kapcsolatot ezen keresztül [e-mail védett] sajtóbemutatókkal, közleményekkel és interjúlehetőségekkel.

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet

A Samourai Wallet alapítóit azzal vádolják, hogy 2 milliárd dollárt segítettek a Darknet ügyletekben

A Samourai Wallet alapítóinak aggodalma jelentős visszalépést jelent az iparág számára, aláhúzva a kitartó ...

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Az Ankr együttműködik az AI Blockchain Platform Talus hálózatával, hogy feloldja a Bitcoin likviditását az AI számára
üzleti Tudósítást Technológia
Az Ankr együttműködik az AI Blockchain Platform Talus hálózatával, hogy feloldja a Bitcoin likviditását az AI számára
May 1, 2024
A Binance Labs támogatja a Movement Labsot, hogy megkönnyítse a Facebook Move-integrációját a blokkláncokon keresztül
üzleti Tudósítást Technológia
A Binance Labs támogatja a Movement Labsot, hogy megkönnyítse a Facebook Move-integrációját a blokkláncokon keresztül
May 1, 2024
BRICS Nemzetek Eye Stablecoin Kereskedelmi Megoldás
üzleti piacok Történetek és vélemények Technológia
BRICS Nemzetek Eye Stablecoin Kereskedelmi Megoldás
May 1, 2024
A Bitcoin L2 Network BOB integrálódik a LayerZero-val a továbbfejlesztett funkcionalitás érdekében
üzleti Tudósítást Technológia
A Bitcoin L2 Network BOB integrálódik a LayerZero-val a továbbfejlesztett funkcionalitás érdekében
May 1, 2024
CRYPTOMERIA LABS PTE. KFT.