GPT-4 Mga Outperform GPT-3.5 Across the Board sa Iba't Ibang Benchmark ng Pag-aaral
Sa madaling sabi
Ang GPT-4 ay nakamit ang mas mataas na grade threshold kaysa sa GPT-3.5 sa iba't ibang mga benchmark.
Ito ay isang malaking tagumpay dahil ipinapakita nito na ang mga makina ay hindi lamang may kakayahang tulad ng tao na katalinuhan ngunit maaari din tayong madaig, na nagtataas ng mga katanungan tungkol sa hinaharap ng AI at ang potensyal na epekto nito sa merkado ng trabaho.
GPT-4 ay higit na nahihigitan ng mga makabagong modelo (SOTA), kabilang ang mga gumagamit ng mga karagdagang protocol ng pagsasanay o disenyong partikular sa benchmark, pati na rin ang mga kasalukuyang modelo ng malalaking wika.
Ang GPT-4 ay nakamit ang mas mataas na marka kaysa sa GPT-3.5 sa iba't ibang mga benchmark. Ito ay isang malaking tagumpay para sa mga makina dahil pinatutunayan nito na hindi lamang nila kayang lutasin ang mga problema na orihinal na idinisenyo ngunit magagawa rin ito nang mas mahusay kaysa sa mga mag-aaral sa unibersidad.
Mayroong ilang mga bagay na dapat isaalang-alang kapag tinitingnan ang resultang ito. Una, ang GPT-4 ay hindi binigyan ng anumang partikular na pagsasanay para sa mga pagsusulit na ito. Nagpatuloy ito sa pamamagitan ng paggamit ng mga pinakabagong pagsusulit na available sa publiko (sa kaso ng mga Olympiad at mga tanong na walang bayad sa pagtugon sa AP) o sa pamamagitan ng pagbili ng 2022–2023 na edisyon ng mga pagsusulit sa pagsasanay. Pangalawa, mahalagang tandaan na ang GPT-4Ang pagganap ni ay maaaring hindi kinakailangang sumasalamin sa mga kakayahan ng mga taong sumusubok, dahil ito ay gumagana sa ibang hanay ng mga prinsipyo at algorithm.
Ito ay isang malaking tagumpay bilang ito ay nagpapakita ng na ang mga makina ay hindi lamang may kakayahang tulad ng tao na katalinuhan ngunit maaari din tayong higitan ang pagganap. Binibigyan nito ang daan para sa isang hinaharap kung saan ang mga makina ay maaaring gumawa ng higit at mas kumplikadong mga gawain, sa huli ay humahantong sa isang hinaharap kung saan maaari silang tulungan tayo sa ating pang-araw-araw na buhay.
Magbasa nang higit pa: 5+ Pinaka Inaasahang Text-to-Image AI na mga modelo ng 2023 |
GPT-4, halimbawa, pumasa sa isang simulate bar exam na may marka sa nangungunang 10% ng mga kumukuha ng pagsusulit; GPT-3Ang marka ng .5 ay nasa ibabang 10%. Ang makabuluhang pagpapabuti na ito sa GPT-4Ang pagganap ni ay dahil sa mas malaking data ng pagsasanay at pinahusay na arkitektura. Inaasahang magkakaroon ito ng malawak na hanay ng mga aplikasyon sa iba't ibang larangan, kabilang ang natural na pagpoproseso ng wika at awtomatikong pagsulat.
Karamihan sa mga makabagong modelo (SOTA), kabilang ang mga maaaring gumamit ng mga karagdagang protocol ng pagsasanay o disenyong partikular sa benchmark, pati na rin ang kasalukuyang malalaking mga modelo ng wika, ay higit na nahihigitan ng GPT-4.
Sa panloob, ginagamit ng mga developer GPT-4, na nagkaroon ng malaking epekto sa mga aktibidad tulad ng programming, benta, suporta, at pag-moderate ng content. Ang ikalawang yugto ng aming paraan ng pag-align ay isinasagawa na ngayon habang ginagamit ito ng mga developer para tulungan ang mga tao sa pagsusuri ng mga resulta ng AI.
Ang dataset ng MMLU (Massive Multi-Task Language Understanding) ay naglalaman ng mga tanong mula sa napakalawak na hanay ng mga paksa sa pag-unawa sa wika sa iba't ibang gawain (spanning 57 domains, kabilang ang mathematics, biology, law, social at human sciences, atbp.). Mayroong apat na posibleng sagot sa tanong, ang isa ay tama. Ibig sabihin, ang random na paghula ay nagpapakita ng resulta ng 25% na tamang sagot. Tingnan ang larawan sa ibaba para sa mga halimbawa ng mga tanong at ang kanilang mga kahirapan. Ang average na person-marker (iyon ay, hindi ito isang siyentipiko, hindi isang propesor-isang ordinaryong tao na nagliliwanag ng buwan bilang markup) ay sumasagot nang tama sa 35% ng mga tanong; gayunpaman, maaaring maabot ng mga eksperto ang markang +/- 90%.
Magbasa nang higit pa: 5 Dahilan para Gumamit ng AI-Powered Bing Over Google |
Sa orihinal, ang buong dataset ay nasa English. Ngunit paano kung ang mga tanong at sagot ay isinalin sa ibang mga wika, lalo na sa mga hindi karaniwan? Gagana ba ang modelo para sa kanila kahit papaano? Sa pagsubok na ito, ginamit ang serbisyo ng Microsoft Azure Translate para sa pagsasalin. Ang mga pagsasalin ay hindi perpekto; sa ilang mga kaso, nawawala ang mahalagang impormasyon. Gayunpaman, kahit na sa kasong ito, ang GPT-4 mahusay na gumaganap sa ibang mga wika. Sa mga isinaling bersyon ng MMLU, GPT-4 higit sa antas ng English ng iba pang malalaking modelo (kabilang ang Google) ng 24 sa 26 na wikang sinuri.
Ano pa, GPT-4 gumaganap nang mas mahusay sa mga bihirang wika kaysa sa ChatGPT ginawa sa Ingles (ChatGPT nakamit ang iskor na 70.1%, habang ang marka ng bagong modelo para sa Thai ay 71.8%). Ang marka para sa pagsusulit sa Ingles ay ang pinakamataas, na may GPT-4 gumaganap ng 10% na mas mahusay kaysa sa iba pang mga modelo, kabilang ang pinakamalaking PaLM mula sa Google. Nakamit nito ang markang 86.4%, habang isang grupo ng mga eksperto—90%.
- Sa tag-araw ng 2023, maaaring umabot na ang AI sa isang bagong antas ng kapangyarihan salamat sa ChatGPT, isang chatbot na gumagamit ng GPT-4 algorithm at outperforms GPT-3 sa pamamagitan ng isang factor na 570. Ang iba't ibang elemento ay nag-aambag sa ChatGPTang tagumpay, kasama ang disenyo nito na maging mas “katulad ng tao” at ang paggamit nito ng cutting-edge data mining at natural na pagproseso ng wika upang mapataas ang pagiging epektibo at katumpakan nito.
- Microsoft at OpenAI inihayag ang kanilang pag-renew ng pakikipagtulungan at mga plano para sa paghahanap sa Bing na gamitin ang mga kakayahan sa paghahanap na pinahusay ng AI noong Enero. Ang napaka sophisticated GPT3.5 na kapalit ng modelo, GPT4, ay inilunsad lamang, at ito ay may potensyal na lubos na mapahusay ang kakayahan ng paghahanap sa Bing na maunawaan ang mga natural na query sa wika at maghatid ng mas tumpak na mga resulta. Magandang ideya na magkaroon ng magandang backup na plano kung sakaling may magkamali.
Magbasa ng higit pang mga kaugnay na balita:
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.
Mas marami pang artikuloSi Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.