OpenAI Nag-anunsyo ng Evals, Isang Open-Source Software Framework para sa Pagsusuri ng mga Modelo ng AI
Sa madaling sabi
OpenAI umaasa na mag-crowdsource ng mga benchmark para sa pagsusuri ng mga modelo ng AI tulad ng GPT-4.
Ang kumpanya sa pagpoproseso ng pagbabayad, si Stripe, ay gumamit na ng Evals upang sukatin ang katumpakan ng kanilang GPT-powered documentation tool.
OpenAI ay magbibigay GPT-4 access para sa isang limitadong oras sa mga nag-aambag ng mataas na kalidad na mga eval.
Kasabay ng anunsyo ng GPT-4, OpenAI ay inihayag ang open-source na balangkas ng software OpenAI Evals. Ang tool na ito ay idinisenyo upang lumikha at magpatakbo ng mga benchmark na sinusuri ang pagganap ng mga modelo tulad ng GPT-4. Kasama si Evals, OpenAI umaasa na mag-crowdsource ng mga benchmark para sa pagsubok ng modelo ng AI.
"Gumagamit kami ng Evals upang gabayan ang pagbuo ng aming mga modelo (parehong pagtukoy ng mga pagkukulang at pagpigil sa mga regression), at maaaring ilapat ito ng aming mga user para sa pagsubaybay sa pagganap sa mga bersyon ng modelo (na ngayon ay regular na lalabas) at mga umuusbong na pagsasama ng produkto," paliwanag ng kumpanya sa a blog post.
Ang Stripe, isang sikat na kumpanya sa pagpoproseso ng pagbabayad, ay gumamit na ng Evals upang umakma sa mga pagsusuri ng tao nito at sukatin ang katumpakan ng kanilang GPT-powered documentation tool.
Maaaring gamitin ng mga developer ang Evals upang lumikha at magpatakbo ng mga pagsusuri na:
- Gumamit ng mga dataset para makabuo ng mga prompt,
- Sukatin ang kalidad ng mga pagkumpleto na ibinigay ng isang OpenAI modelo, at
- Paghambingin ang performance sa iba't ibang dataset at modelo.
Gamit ang open-source code, ang mga developer ay maaari ding magsulat at magdagdag ng a pasadyang Eval at maraming mga template na maaaring tumanggap ng iba't ibang mga benchmark. Ang kumpanya ay nagsama ng mga template na naging pinakakapaki-pakinabang sa loob, kabilang ang isang template para sa "model-graded evals," na GPT-4 maaaring gamitin upang suriin ang sarili nitong gawa. Bilang isang halimbawa na dapat sundin, ang kumpanya ay lumikha ng isang logic puzzle eval na naglalaman ng sampung senyas kung saan GPT-4 nabigo.
Tugma din ang Evals sa pagpapatupad ng mga kasalukuyang benchmark, kabilang ang ilang notebook na nagpapatupad ng mga akademikong benchmark at ilang variation ng pagsasama ng maliliit na subset ng CoQA.
Habang hindi babayaran ang mga developer para sa pag-aambag sa Evals, OpenAI ay magbibigay GPT-4 access para sa isang limitadong oras sa mga nag-aambag ng "mataas na kalidad na mga eval."
Ang anunsyo ng Evals ay darating pagkatapos OpenAI kamakailan sinabi hihinto ito sa paggamit ng data na isinumite ng mga customer sa pamamagitan ng API nito upang sanayin o pahusayin ang mga modelo nito maliban na lang kung magpasya ang mga customer na mag-opt in. Sumasali ang kumpanya sa Meta sa mga benchmark ng crowdsourcing habang ang huli ay nag-aatas sa mga tao na "paghahanap ng mga halimbawa ng adversarial na lumilinlang sa kasalukuyang estado-of-the -art models” para dito DynaBench platform.
Magbasa nang higit pa:
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Si Cindy ay isang mamamahayag sa Metaverse Post, sumasaklaw sa mga paksang nauugnay sa web3, NFT, metaverse at AI, na may pagtuon sa mga panayam kay Web3 mga manlalaro sa industriya. Nakipag-usap siya sa higit sa 30 C-level na mga executive at nadaragdagan pa, na nagdadala ng kanilang mahahalagang insight sa mga mambabasa. Originally from Singapore, Cindy is now based in Tbilisi, Georgia. Siya ay may hawak na Bachelor's degree sa Communications & Media Studies mula sa University of South Australia at may isang dekada ng karanasan sa pamamahayag at pagsusulat. Makipag-ugnayan sa kanya sa pamamagitan ng [protektado ng email] na may mga press pitch, mga anunsyo at mga pagkakataon sa pakikipanayam.
Mas marami pang artikuloSi Cindy ay isang mamamahayag sa Metaverse Post, sumasaklaw sa mga paksang nauugnay sa web3, NFT, metaverse at AI, na may pagtuon sa mga panayam kay Web3 mga manlalaro sa industriya. Nakipag-usap siya sa higit sa 30 C-level na mga executive at nadaragdagan pa, na nagdadala ng kanilang mahahalagang insight sa mga mambabasa. Originally from Singapore, Cindy is now based in Tbilisi, Georgia. Siya ay may hawak na Bachelor's degree sa Communications & Media Studies mula sa University of South Australia at may isang dekada ng karanasan sa pamamahayag at pagsusulat. Makipag-ugnayan sa kanya sa pamamagitan ng [protektado ng email] na may mga press pitch, mga anunsyo at mga pagkakataon sa pakikipanayam.