Ulat sa Balita Teknolohiya
Marso 15, 2023

GPT-4 Mga Outperform GPT-3.5 Across the Board sa Iba't Ibang Benchmark ng Pag-aaral

Sa madaling sabi

Ang GPT-4 ay nakamit ang mas mataas na grade threshold kaysa sa GPT-3.5 sa iba't ibang mga benchmark.

Ito ay isang malaking tagumpay dahil ipinapakita nito na ang mga makina ay hindi lamang may kakayahang tulad ng tao na katalinuhan ngunit maaari din tayong madaig, na nagtataas ng mga katanungan tungkol sa hinaharap ng AI at ang potensyal na epekto nito sa merkado ng trabaho.

GPT-4 ay higit na nahihigitan ng mga makabagong modelo (SOTA), kabilang ang mga gumagamit ng mga karagdagang protocol ng pagsasanay o disenyong partikular sa benchmark, pati na rin ang mga kasalukuyang modelo ng malalaking wika.

Ang GPT-4 ay nakamit ang mas mataas na marka kaysa sa GPT-3.5 sa iba't ibang mga benchmark. Ito ay isang malaking tagumpay para sa mga makina dahil pinatutunayan nito na hindi lamang nila kayang lutasin ang mga problema na orihinal na idinisenyo ngunit magagawa rin ito nang mas mahusay kaysa sa mga mag-aaral sa unibersidad.

GPT-4 outperforms GPT-3.5 sa buong board sa iba't ibang mga benchmark sa pag-aaral

Mayroong ilang mga bagay na dapat isaalang-alang kapag tinitingnan ang resultang ito. Una, ang GPT-4 ay hindi binigyan ng anumang partikular na pagsasanay para sa mga pagsusulit na ito. Nagpatuloy ito sa pamamagitan ng paggamit ng mga pinakabagong pagsusulit na available sa publiko (sa kaso ng mga Olympiad at mga tanong na walang bayad sa pagtugon sa AP) o sa pamamagitan ng pagbili ng 2022–2023 na edisyon ng mga pagsusulit sa pagsasanay. Pangalawa, mahalagang tandaan na ang GPT-4Ang pagganap ni ay maaaring hindi kinakailangang sumasalamin sa mga kakayahan ng mga taong sumusubok, dahil ito ay gumagana sa ibang hanay ng mga prinsipyo at algorithm.

Ito ay isang malaking tagumpay bilang ito ay nagpapakita ng na ang mga makina ay hindi lamang may kakayahang tulad ng tao na katalinuhan ngunit maaari din tayong higitan ang pagganap. Binibigyan nito ang daan para sa isang hinaharap kung saan ang mga makina ay maaaring gumawa ng higit at mas kumplikadong mga gawain, sa huli ay humahantong sa isang hinaharap kung saan maaari silang tulungan tayo sa ating pang-araw-araw na buhay.

Ang GPT-4Ang kakayahan ni na higitan ang pagganap ng mga tao sa ilang mga gawain ay nagdudulot ng mga katanungan tungkol sa kinabukasan ng artificial intelligence at ang potensyal na epekto nito sa merkado ng trabaho. Itinatampok din nito ang pangangailangan para sa patuloy na pananaliksik at pag-unlad sa larangang ito upang matiyak na ang AI ay ginagamit nang etikal at responsable.
Magbasa nang higit pa: 5+ Pinaka Inaasahang Text-to-Image AI na mga modelo ng 2023

GPT-4, halimbawa, pumasa sa isang simulate bar exam na may marka sa nangungunang 10% ng mga kumukuha ng pagsusulit; GPT-3Ang marka ng .5 ay nasa ibabang 10%. Ang makabuluhang pagpapabuti na ito sa GPT-4Ang pagganap ni ay dahil sa mas malaking data ng pagsasanay at pinahusay na arkitektura. Inaasahang magkakaroon ito ng malawak na hanay ng mga aplikasyon sa iba't ibang larangan, kabilang ang natural na pagpoproseso ng wika at awtomatikong pagsulat.

 
GPT-4 nagpapakita ng pagganap sa antas ng tao sa karamihan ng mga propesyonal at akademikong pagsusulit na ito. Kapansin-pansin, nakapasa ito sa isang simulate na bersyon ng Uniform Bar Examination na may marka sa nangungunang 10% ng mga kumukuha ng pagsusulit. Ang mga kakayahan ng modelo sa mga pagsusulit ay lumilitaw na pangunahing nagmumula sa proseso ng pre-training at hindi gaanong apektado ng RLHF. Sa maramihang-pagpipiliang tanong, pareho ang batayan GPT-4 modelo at ang modelong RLHF ay gumanap nang pantay-pantay sa karaniwan sa mga developer ng nasubok na pagsusulit.

Karamihan sa mga makabagong modelo (SOTA), kabilang ang mga maaaring gumamit ng mga karagdagang protocol ng pagsasanay o disenyong partikular sa benchmark, pati na rin ang kasalukuyang malalaking mga modelo ng wika, ay higit na nahihigitan ng GPT-4.

GPT-4pagganap ni sa mga tuntunin ng mga pamantayang pang-akademiko. Contrast ng mga developer GPT-4 na may pinakamahusay na SOTA para sa isang LM-evaluated few-shot pati na rin ang pinakamahusay na SOTA na may benchmark-specific na pagsasanay. Maliban sa DROP, GPT-4 higit ang pagganap sa lahat ng kasalukuyang LM sa lahat ng benchmark at SOTA sa pagsasanay na partikular sa benchmark.

Sa panloob, ginagamit ng mga developer GPT-4, na nagkaroon ng malaking epekto sa mga aktibidad tulad ng programming, benta, suporta, at pag-moderate ng content. Ang ikalawang yugto ng aming paraan ng pag-align ay isinasagawa na ngayon habang ginagamit ito ng mga developer para tulungan ang mga tao sa pagsusuri ng mga resulta ng AI.

Ang dataset ng MMLU (Massive Multi-Task Language Understanding) ay naglalaman ng mga tanong mula sa napakalawak na hanay ng mga paksa sa pag-unawa sa wika sa iba't ibang gawain (spanning 57 domains, kabilang ang mathematics, biology, law, social at human sciences, atbp.). Mayroong apat na posibleng sagot sa tanong, ang isa ay tama. Ibig sabihin, ang random na paghula ay nagpapakita ng resulta ng 25% na tamang sagot. Tingnan ang larawan sa ibaba para sa mga halimbawa ng mga tanong at ang kanilang mga kahirapan. Ang average na person-marker (iyon ay, hindi ito isang siyentipiko, hindi isang propesor-isang ordinaryong tao na nagliliwanag ng buwan bilang markup) ay sumasagot nang tama sa 35% ng mga tanong; gayunpaman, maaaring maabot ng mga eksperto ang markang +/- 90%.

Pagganap ng GPT-4 sa isang hanay ng mga wika kumpara sa mga naunang modelo sa English sa MMLU. GPT-4 lumampas sa pagganap sa wikang Ingles ng mga kasalukuyang modelo ng wika para sa karamihan ng mga wikang sinuri, kabilang ang mga wikang mababa ang mapagkukunan tulad ng Latvian, Welsh, at Swahili.
Magbasa nang higit pa: 5 Dahilan para Gumamit ng AI-Powered Bing Over Google

Sa orihinal, ang buong dataset ay nasa English. Ngunit paano kung ang mga tanong at sagot ay isinalin sa ibang mga wika, lalo na sa mga hindi karaniwan? Gagana ba ang modelo para sa kanila kahit papaano? Sa pagsubok na ito, ginamit ang serbisyo ng Microsoft Azure Translate para sa pagsasalin. Ang mga pagsasalin ay hindi perpekto; sa ilang mga kaso, nawawala ang mahalagang impormasyon. Gayunpaman, kahit na sa kasong ito, ang GPT-4 mahusay na gumaganap sa ibang mga wika. Sa mga isinaling bersyon ng MMLU, GPT-4 higit sa antas ng English ng iba pang malalaking modelo (kabilang ang Google) ng 24 sa 26 na wikang sinuri.

Ano pa, GPT-4 gumaganap nang mas mahusay sa mga bihirang wika kaysa sa ChatGPT ginawa sa Ingles (ChatGPT nakamit ang iskor na 70.1%, habang ang marka ng bagong modelo para sa Thai ay 71.8%). Ang marka para sa pagsusulit sa Ingles ay ang pinakamataas, na may GPT-4 gumaganap ng 10% na mas mahusay kaysa sa iba pang mga modelo, kabilang ang pinakamalaking PaLM mula sa Google. Nakamit nito ang markang 86.4%, habang isang grupo ng mga eksperto—90%.

  • Sa tag-araw ng 2023, maaaring umabot na ang AI sa isang bagong antas ng kapangyarihan salamat sa ChatGPT, isang chatbot na gumagamit ng GPT-4 algorithm at outperforms GPT-3 sa pamamagitan ng isang factor na 570. Ang iba't ibang elemento ay nag-aambag sa ChatGPTang tagumpay, kasama ang disenyo nito na maging mas “katulad ng tao” at ang paggamit nito ng cutting-edge data mining at natural na pagproseso ng wika upang mapataas ang pagiging epektibo at katumpakan nito.
  • Microsoft at OpenAI inihayag ang kanilang pag-renew ng pakikipagtulungan at mga plano para sa paghahanap sa Bing na gamitin ang mga kakayahan sa paghahanap na pinahusay ng AI noong Enero. Ang napaka sophisticated GPT3.5 na kapalit ng modelo, GPT4, ay inilunsad lamang, at ito ay may potensyal na lubos na mapahusay ang kakayahan ng paghahanap sa Bing na maunawaan ang mga natural na query sa wika at maghatid ng mas tumpak na mga resulta. Magandang ideya na magkaroon ng magandang backup na plano kung sakaling may magkamali.

Magbasa ng higit pang mga kaugnay na balita:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM
Negosyo Ulat sa Balita Teknolohiya
Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM
Mayo 3, 2024
Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base
markets Ulat sa Balita Teknolohiya
Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base
Mayo 3, 2024
Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain
markets Ulat sa Balita Teknolohiya
Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain
Mayo 3, 2024
Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala
Negosyo Ulat sa Balita Teknolohiya
Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala
Mayo 3, 2024
CRYPTOMERIA LABS PTE. LTD.