Ulat sa Balita Teknolohiya
Marso 16, 2023

OpenAI Nag-anunsyo ng Evals, Isang Open-Source Software Framework para sa Pagsusuri ng mga Modelo ng AI

Sa madaling sabi

OpenAI umaasa na mag-crowdsource ng mga benchmark para sa pagsusuri ng mga modelo ng AI tulad ng GPT-4.

Ang kumpanya sa pagpoproseso ng pagbabayad, si Stripe, ay gumamit na ng Evals upang sukatin ang katumpakan ng kanilang GPT-powered documentation tool.

OpenAI ay magbibigay GPT-4 access para sa isang limitadong oras sa mga nag-aambag ng mataas na kalidad na mga eval.

OpenAI Nag-anunsyo ng Evals, Isang Open-Source Software Framework para sa Pagsusuri ng mga Modelo ng AI

Kasabay ng anunsyo ng GPT-4, OpenAI ay inihayag ang open-source na balangkas ng software OpenAI Evals. Ang tool na ito ay idinisenyo upang lumikha at magpatakbo ng mga benchmark na sinusuri ang pagganap ng mga modelo tulad ng GPT-4. Kasama si Evals, OpenAI umaasa na mag-crowdsource ng mga benchmark para sa pagsubok ng modelo ng AI. 

"Gumagamit kami ng Evals upang gabayan ang pagbuo ng aming mga modelo (parehong pagtukoy ng mga pagkukulang at pagpigil sa mga regression), at maaaring ilapat ito ng aming mga user para sa pagsubaybay sa pagganap sa mga bersyon ng modelo (na ngayon ay regular na lalabas) at mga umuusbong na pagsasama ng produkto," paliwanag ng kumpanya sa a blog post.

Ang Stripe, isang sikat na kumpanya sa pagpoproseso ng pagbabayad, ay gumamit na ng Evals upang umakma sa mga pagsusuri ng tao nito at sukatin ang katumpakan ng kanilang GPT-powered documentation tool.

Maaaring gamitin ng mga developer ang Evals upang lumikha at magpatakbo ng mga pagsusuri na:

  • Gumamit ng mga dataset para makabuo ng mga prompt,
  • Sukatin ang kalidad ng mga pagkumpleto na ibinigay ng isang OpenAI modelo, at
  • Paghambingin ang performance sa iba't ibang dataset at modelo.

Gamit ang open-source code, ang mga developer ay maaari ding magsulat at magdagdag ng a pasadyang Eval at maraming mga template na maaaring tumanggap ng iba't ibang mga benchmark. Ang kumpanya ay nagsama ng mga template na naging pinakakapaki-pakinabang sa loob, kabilang ang isang template para sa "model-graded evals," na GPT-4 maaaring gamitin upang suriin ang sarili nitong gawa. Bilang isang halimbawa na dapat sundin, ang kumpanya ay lumikha ng isang logic puzzle eval na naglalaman ng sampung senyas kung saan GPT-4 nabigo.

Tugma din ang Evals sa pagpapatupad ng mga kasalukuyang benchmark, kabilang ang ilang notebook na nagpapatupad ng mga akademikong benchmark at ilang variation ng pagsasama ng maliliit na subset ng CoQA.

Habang hindi babayaran ang mga developer para sa pag-aambag sa Evals, OpenAI ay magbibigay GPT-4 access para sa isang limitadong oras sa mga nag-aambag ng "mataas na kalidad na mga eval." 

Ang anunsyo ng Evals ay darating pagkatapos OpenAI kamakailan sinabi hihinto ito sa paggamit ng data na isinumite ng mga customer sa pamamagitan ng API nito upang sanayin o pahusayin ang mga modelo nito maliban na lang kung magpasya ang mga customer na mag-opt in. Sumasali ang kumpanya sa Meta sa mga benchmark ng crowdsourcing habang ang huli ay nag-aatas sa mga tao na "paghahanap ng mga halimbawa ng adversarial na lumilinlang sa kasalukuyang estado-of-the -art models” para dito DynaBench platform.

Magbasa nang higit pa:

Tags:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Cindy ay isang mamamahayag sa Metaverse Post, sumasaklaw sa mga paksang nauugnay sa web3, NFT, metaverse at AI, na may pagtuon sa mga panayam kay Web3 mga manlalaro sa industriya. Nakipag-usap siya sa higit sa 30 C-level na mga executive at nadaragdagan pa, na nagdadala ng kanilang mahahalagang insight sa mga mambabasa. Originally from Singapore, Cindy is now based in Tbilisi, Georgia. Siya ay may hawak na Bachelor's degree sa Communications & Media Studies mula sa University of South Australia at may isang dekada ng karanasan sa pamamahayag at pagsusulat. Makipag-ugnayan sa kanya sa pamamagitan ng [protektado ng email] na may mga press pitch, mga anunsyo at mga pagkakataon sa pakikipanayam.

Mas marami pang artikulo
Cindy Tan
Cindy Tan

Si Cindy ay isang mamamahayag sa Metaverse Post, sumasaklaw sa mga paksang nauugnay sa web3, NFT, metaverse at AI, na may pagtuon sa mga panayam kay Web3 mga manlalaro sa industriya. Nakipag-usap siya sa higit sa 30 C-level na mga executive at nadaragdagan pa, na nagdadala ng kanilang mahahalagang insight sa mga mambabasa. Originally from Singapore, Cindy is now based in Tbilisi, Georgia. Siya ay may hawak na Bachelor's degree sa Communications & Media Studies mula sa University of South Australia at may isang dekada ng karanasan sa pamamahayag at pagsusulat. Makipag-ugnayan sa kanya sa pamamagitan ng [protektado ng email] na may mga press pitch, mga anunsyo at mga pagkakataon sa pakikipanayam.

Hot Stories

BRICS Nations Eye Stablecoin Trade Solution

by Viktoriia Palchik
Mayo 01, 2024
Sumali sa Aming Newsletter.
Pinakabagong Balita

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa

Ang Mga Tagapagtatag ng Samourai Wallet ay Inakusahan na Nagpapadali ng $2B sa Darknet Deals

Ang pangamba ng mga tagapagtatag ng Samourai Wallet ay kumakatawan sa isang kapansin-pansing pag-urong para sa industriya, na binibigyang-diin ang patuloy na ...

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Nakipagtulungan ang Ankr Sa AI Blockchain Platform Talus Network Upang I-unlock ang Bitcoin Liquidity Para sa AI
Negosyo Ulat sa Balita Teknolohiya
Nakipagtulungan ang Ankr Sa AI Blockchain Platform Talus Network Upang I-unlock ang Bitcoin Liquidity Para sa AI
Mayo 1, 2024
Sinusuportahan ng Binance Labs ang Movement Labs Upang Pangasiwaan ang Pagsasama-sama ng Facebook sa Mga Blockchain
Negosyo Ulat sa Balita Teknolohiya
Sinusuportahan ng Binance Labs ang Movement Labs Upang Pangasiwaan ang Pagsasama-sama ng Facebook sa Mga Blockchain
Mayo 1, 2024
BRICS Nations Eye Stablecoin Trade Solution
Negosyo markets Mga Kuwento at Pagsusuri Teknolohiya
BRICS Nations Eye Stablecoin Trade Solution
Mayo 1, 2024
Bitcoin L2 Network BOB Sumasama Sa LayerZero Para sa Pinahusay na Paggana
Negosyo Ulat sa Balita Teknolohiya
Bitcoin L2 Network BOB Sumasama Sa LayerZero Para sa Pinahusay na Paggana
Mayo 1, 2024
CRYPTOMERIA LABS PTE. LTD.