Ulat sa Balita SMW Teknolohiya
Mayo 30, 2023

GPT-4Ang Pagganap ng US Bar Exam ay Sumasalungat sa Mga Claim Nito

Sa madaling sabi

Ang pagsusuri ng GPT-4Ang pagganap ni sa Uniform Bar Exam ay nagsiwalat ng pagkakaiba sa pagitan ng tinantyang at aktwal na pagganap, na nagbibigay-diin sa kahalagahan ng malinaw na mga pamamaraan ng pagsusuri at naa-access na data.

OpenAI ay hinihikayat na tugunan ang mga pagkakaiba at bumuo ng isang mas inklusibo at maaasahang diskarte sa pagsusuri ng modelo ng AI upang makakuha ng tiwala at matiyak ang kredibilidad.

Sa isang kamakailang pagsusuri ng GPT-4ang pagganap ni sa Uniform Bar Exam (EBU), may mga pagdududa tungkol sa katumpakan ng OpenAIang mga claim tungkol sa rate ng tagumpay ng modelo. Taliwas sa paunang paninindigan na GPT-4 higit sa 90% ng mga indibidwal, ang mga natuklasan ay nagmumungkahi ng isang makabuluhang pagkakaiba sa pagitan ng tinantyang at aktwal na pagganap ng modelo ng AI. Binibigyang-diin ng paghahayag na ito ang kahalagahan ng mga transparent na pamamaraan ng pagsusuri at naa-access na data para sa pagpapatunay ng mga naturang claim.

GPT-4Ang Pagganap ng US Bar Exam ay Sumasalungat sa Mga Claim Nito
@Midjourney

Nakatuon ang pagsusuri sa iba't ibang salik upang matiyak ang tunay na kakayahan ng GPT-4. Una, ang pagsusuri ng mga pagsusulit sa Pebrero sa Illinois ay nagsiwalat na GPT-4Lumapit ang mga score sa Ika-90 porsyento. Gayunpaman, napagmasdan na ang mga markang ito ay labis na naimpluwensyahan ng mga retaker na dati nang bumagsak sa pagsusulit sa Hulyo at sa gayon ay nakakuha ng mas mababa sa pangkalahatang average.

Higit pa rito, sumasalungat ang mga resulta ng pagsusulit sa Hulyo OpenAIang mga pag-angkin ni, na inilalantad iyon GPT-4 gagawin lang Lumabas 68% ng mga tao at 48% ng mga sanaysay. GPT-4Ang pagganap ni laban sa mga unang kumuha (hindi kasama ang mga muling pagkuha) ay nasuri sa 63rd percentile kapag ang opisyal na data mula sa ilang mga pagsubok sa iba't ibang panahon ay isinasaalang-alang, na ang mga sanaysay ay nakakuha ng mas mababa sa 41st percentile.

Ang karagdagang pananaw ay nakuha sa pamamagitan ng pagsusuri sa pagganap ng mga nakapasa sa pagsusulit, kabilang ang mga lisensyadong indibidwal at ang mga naghihintay ng paglilisensya. Kaugnay nito, GPT-4Ang pangkalahatang pagganap ni ay niraranggo sa 48th percentile, na ang mga sanaysay ay mas malala pa sa 15th percentile.

Bagama't nakakabahala ang mga natuklasang ito, mahalagang isaalang-alang ang posibilidad ng pagkakamali ng tao sa proseso ng pagsusuri. Binibigyang-diin ng may-akda ng artikulo ang kahalagahan ng pag-unawa sa sample na ginamit ng mga mananaliksik upang suriin GPT-4pagganap ni. Ang kakulangan ng opisyal na data, lalo na sa pinagsama-samang anyo, ay nagpapahirap sa patas na paghahambing at pagsusuri ng mga porsyento. Ang pagtatatag ng malinaw at naa-access na mga diskarte sa pagsusuri na maaaring masuri ng lahat ng mga stakeholder ay kritikal.

Bilang tugon sa mga alalahaning ito, OpenAI ay hinihimok na tugunan ang mga pagkakaiba at magbigay ng karagdagang mga insight sa proseso ng pagsusuri. Mahalaga ang transparency at pagiging bukas para sa pagkakaroon ng tiwala at pagtiyak ng kredibilidad ng mga modelo ng AI sa mga domain na may mataas na stake gaya ng batas.

Dapat tandaan na hindi tinatalakay ng artikulo ang tiyak na markang nakamit ni GPT-4, na iniulat na 298. Ang pagsusuri sa kahalagahan ng markang ito ay nangangailangan ng kontekstwal na pag-unawa sa sistema ng pagmamarka na ginamit. Kung paanong ang isang bata na umuuwi mula sa paaralan na may B ay maaaring maging sanhi ng pagdiriwang o pagkabigo, ang interpretasyon ng GPT-4Ang marka ni ay depende sa sukat na ginamit.

Ang pagtatasa ng GPT-4performance ni sa bar exam nagtataas ng malubhang alalahanin tungkol sa katotohanan ng OpenAIpaunang pahayag ni. Ang agwat sa pagitan ng tinantyang at aktwal na pagganap ay nagbibigay-diin sa kahalagahan ng malinaw na mga sistema ng pagsusuri at madaling ma-access na data. OpenAI ay hinihikayat na tugunan ang mga hamong ito at bumuo ng isang mas inklusibo at maaasahang diskarte sa AI pagsusuri ng modelo.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa

Ang Mga Tagapagtatag ng Samourai Wallet ay Inakusahan na Nagpapadali ng $2B sa Darknet Deals

Ang pangamba ng mga tagapagtatag ng Samourai Wallet ay kumakatawan sa isang kapansin-pansing pag-urong para sa industriya, na binibigyang-diin ang patuloy na ...

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Ang Chainlink At Rapid Addition ay Nagtutulungan Upang Bumuo ng CCIP-Based Blockchain Adapter
Negosyo Ulat sa Balita Teknolohiya
Ang Chainlink At Rapid Addition ay Nagtutulungan Upang Bumuo ng CCIP-Based Blockchain Adapter
Mayo 1, 2024
BitSmiley Inilunsad ang Alphanet V1, Debuts Sa Bitcoin Layer 2 Network Bitlayer
Ulat sa Balita Teknolohiya
BitSmiley Inilunsad ang Alphanet V1, Debuts Sa Bitcoin Layer 2 Network Bitlayer
Mayo 1, 2024
Abril 2024, Nakikita ang Makasaysayang Kababaan sa Mga Hack at Scam, Ulat ng CertiK ng 141% Buma mula Marso
markets Katiwasayan Wiki Mga Kuwento at Pagsusuri Teknolohiya
Abril 2024, Nakikita ang Makasaysayang Kababaan sa Mga Hack at Scam, Ulat ng CertiK ng 141% Buma mula Marso
Mayo 1, 2024
Bumaba ang Presyo ng Bitcoin Bago ang Anunsyo ng Desisyon sa Rate ng Interes ng Federal Reserve, Nagbabala ang mga Analista Tungkol sa Potensyal na Pagbabago ng Market
markets Ulat sa Balita Teknolohiya
Bumaba ang Presyo ng Bitcoin Bago ang Anunsyo ng Desisyon sa Rate ng Interes ng Federal Reserve, Nagbabala ang mga Analista Tungkol sa Potensyal na Pagbabago ng Market
Mayo 1, 2024
CRYPTOMERIA LABS PTE. LTD.