Ulat sa Balita Teknolohiya
Hulyo 20, 2023

Kinukumpirma ng Pag-aaral ng Stanford GPT-4 Nagiging Dumber

Sa madaling sabi

Inihambing ng isang pag-aaral ni Matei Zaharia at ng kanyang koponan mula sa Stanford at UC Berkeley ang pagganap ng GPT-4 at ChatGPT upang matugunan ang mga alalahanin ng gumagamit tungkol sa pagiging epektibo ng modelo.

Sinuri ng pag-aaral ang mga modelo sa apat na partikular na gawain: matematika, coding, sensitivity, at visual na pangangatwiran.

Matei Zaharia at ang kanyang koponan mula sa Stanford at UC Berkeley nagsagawa ng isang pag-aaral na inihambing ang pagganap ng GPT-4 sa ChatGPT. Ang pagsisiyasat na ito ay naghangad na matugunan ang mga alalahanin ng gumagamit na ang pagiging epektibo ng modelo ay lumiit.

Kinukumpirma ng Pag-aaral ng Stanford GPT-4 Nagiging Dumber
Pinasasalamatan: Metaverse Post
kaugnay: GPT-4 kumpara sa GPT-3: Ano ang Iniaalok ng Bagong Modelo?

Dinisenyo ng mga mananaliksik ang pag-aaral upang suriin ang mga modelo sa apat na partikular na gawain. Kasama sa mga gawaing ito ang:

  • Mathematics: Ang kakayahan ng modelo na matukoy kung prime o composite ang isang naibigay na numero.
  • Coding: Pagtatasa sa kakayahan ng modelo na bumuo ng makabuluhan at functional na code.
  • Sensitivity: Pagsusuri sa mga tugon ng modelo sa mga tanong na may potensyal na "nakakalason" na nilalaman.
  • Visual Reasoning: Pagsubok sa kakayahan ng modelo para sa paglutas ng mga problema na may kinalaman sa mga visual na pattern, gamit ang ARC benchmark. Kinailangan ng mga kalahok na tukuyin ang mga pattern sa isang hanay ng mga larawan at ilapat ang mga ito upang malutas ang isang bagong halimbawa.

Sa larangan ng matematika, pareho GPT-4 Ang mga bersyon, ang mga release ng Marso at Hunyo, ay nagpakita ng pare-parehong katumpakan sa pagtukoy ng mga prime at composite na numero. Ang mga modelo ay nagpakita ng kahusayan sa paghawak ng mga kalkulasyong ito, na nagbibigay ng maaasahang mga resulta.

Lumipat sa coding, GPT-4 nagpakita ng pinahusay na kakayahan upang makabuo ng makabuluhan at functional na code kumpara sa mga nauna nito. Ang mga kakayahan sa pagbuo ng code ng modelo ay nagpakita ng pangako, na nag-aalok ng mga potensyal na benepisyo para sa mga developer at programmer.

Tungkol sa pagiging sensitibo, tinasa ng pag-aaral ang mga tugon ng mga modelo sa mga tanong na naglalaman ng potensyal na nakakapinsala o nakakasakit na nilalaman. GPT-4 nagpakita ng pinahusay na pagsusuri sa sensitivity at nagpakita ng pinahusay na kakayahang magbigay ng mga naaangkop na tugon sa mga ganitong konteksto. Nangangahulugan ito ng isang positibong hakbang pasulong sa pagtugon sa mga alalahanin ng user tungkol sa mga potensyal na may problemang mga output.

Panghuli, ang mga gawaing visual na pangangatwiran batay sa benchmark ng ARC ay matagumpay na nakumpleto ng pareho GPT-4 mga bersyon. Ang mga modelo ay epektibong natukoy ang mga pattern sa loob ng mga set ng imahe at nagpakita ng kakayahang ilapat ang mga pattern na ito upang malutas ang mga bagong halimbawa. Ito ay nagpapakita ng kanilang kapasidad para sa visual na pag-unawa at pangangatwiran.

Ang mga resulta ay nagpapahiwatig na GPT-4 nagpakita ng pagbaba sa katumpakan, na may higit lamang sa 2% ng mga tamang sagot. Mahalagang tandaan na ang partikular na pagsubok na ito ay pangunahing tinatasa ang kapasidad ng modelo na mag-recall ng data sa halip na ipakita ang likas nitong kakayahan sa matematika. Ang gawain ay umiikot sa memory recall, dahil ang modelo ay walang kakayahan para sa pagkalkula ng validation at inference, lalo na pagdating sa prime numbers.

ChatGPT nagpakita ng malaking paglago sa mga sukatan ng pagganap sa Hunyo, na nagpapakita ng kahanga-hangang pagpapabuti ng higit sa sampung beses. Bagama't ang pag-aaral ay hindi nagsaliksik sa mga partikular na salik na nag-aambag sa pagpapahusay na ito, ito ay nagha-highlight ChatGPTang pagsulong sa matematikal na pangangatwiran at mga kakayahan sa paglutas ng problema.

Hindi nasuri ng pag-aaral ang kalidad o kawastuhan ng nabuong code. Sa halip, lumilitaw ang mga modelo na nagpapakita ng mas "custom" na gawi, na nag-aalok ng mga snippet ng code nang hindi tinitiyak ang kanilang katumpakan sa pagganap.
kaugnay: 10+ Pinakamahusay na AI Photo Enhancer sa 2023

Ang kalidad ng GPT-4 at ChatGPT ay tinanong pagkatapos ng pagsusuri ng kanilang mga kakayahan sa programming. Gayunpaman, ang isang mas malapit na pagtingin ay nagpapakita ng ilang mga kamangha-manghang mga nuances na sumasalungat sa mga unang impression.

Ang mga may-akda ay hindi nagsagawa o nag-verify ng code para sa kawastuhan; ang kanilang pagtatasa ay batay lamang sa bisa nito bilang Python code. Bukod pa rito, tila natutunan ng mga modelo ang isang partikular na pamamaraan ng pag-frame ng code gamit ang isang dekorador, na hindi sinasadyang humadlang sa pagpapatupad ng code.

Bilang resulta, nagiging maliwanag na ang mga kinalabasan o ang mismong eksperimento ay hindi maituturing na ebidensya ng pagkasira ng modelo. Sa halip, ang mga modelo ay nagpapakita ng ibang diskarte sa pagbuo ng mga tugon, na posibleng nagpapakita ng mga pagkakaiba-iba sa kanilang pagsasanay.

Isang pagsusuri sa mga kakayahan sa programming at matematika ng GPT-4 at ChatGPT ay nagbigay liwanag sa mga kagiliw-giliw na natuklasan. Taliwas sa mga paunang pagpapalagay, ang mga modelo ay nagpakita ng mga kapansin-pansing pagpapabuti sa ilang partikular na lugar habang nagpapakita ng mga pagbabago sa pag-uugali sa iba.

Pagdating sa mga gawain sa programming, ang parehong mga modelo ay nagpakita ng pagbaba sa pagtugon sa "maling" mga senyas, na may GPT-4 nagpapakita ng higit sa apat na beses na pagbawas sa mga ganitong pagkakataon. Bukod pa rito, sa gawaing Visual Reasoning, ang kalidad ng mga tugon ay napabuti ng ilang porsyentong puntos para sa parehong mga modelo. Ang mga obserbasyong ito ay nagpapahiwatig ng pag-unlad sa halip na pagkasira ng pagganap.

Gayunpaman, ang pagtatasa ng mga kasanayan sa matematika ay nagpapakilala ng isang nakakaintriga na elemento. Ang mga modelo ay patuloy na nagbibigay ng mga pangunahing numero bilang mga sagot, na nagpapahiwatig ng pare-parehong "oo" na tugon. Gayunpaman, sa pagpapakilala ng mga pinagsama-samang numero sa sample, naging maliwanag na inilipat ng mga modelo ang kanilang pag-uugali at nagsimulang magbigay ng "hindi" na mga tugon, na nagmumungkahi ng kawalan ng katiyakan sa halip na pagbaba sa kalidad. Ang pagsubok mismo ay kakaiba at isang panig, at ang mga resulta nito ay maaaring maiugnay sa mga pagbabago sa gawi ng modelo sa halip na pagbaba sa kalidad.

Mahalagang tandaan na ang mga bersyon ng API ay sinubukan, at hindi ang mga bersyong batay sa browser. Bagama't posible na ang mga modelo sa browser ay sumailalim sa mga pagsasaayos upang ma-optimize ang mga mapagkukunan, ang kalakip na pag-aaral ay hindi definitively patunayan ang hypothesis na ito. Ang epekto ng naturang mga pagbabago ay maihahambing sa aktwal na mga pag-downgrade ng modelo, na humahantong sa mga potensyal na hamon para sa mga user na umaasa sa partikular na pagtatrabaho mga senyas at naipon na karanasan.

Sa kaso ng GPT-4 Ang mga application ng API, ang mga paglihis na ito sa pag-uugali ay maaaring magkaroon ng mga nasasalat na kahihinatnan. Ang code na binuo batay sa mga pangangailangan at gawain ng isang partikular na user ay maaaring hindi na gumana ayon sa nilalayon kung ang modelo ay sumasailalim sa mga pagbabago sa pag-uugali nito.

Inirerekomenda na isama ng mga user ang mga katulad na kasanayan sa pagsubok sa kanilang mga daloy ng trabaho. Sa pamamagitan ng paglikha ng isang hanay ng mga prompt, kasamang mga text, at inaasahang resulta, maaaring regular na suriin ng mga user ang pagkakapare-pareho sa pagitan ng kanilang mga inaasahan at mga tugon ng modelo. Sa sandaling matukoy ang anumang mga paglihis, maaaring gumawa ng naaangkop na mga hakbang upang maitama ang sitwasyon.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
BLOCKCHANCE at CONF3RENCE Magkaisa para sa Pinakamalaking Germany Web3 Kumperensya sa Dortmund
Negosyo markets software Mga Kuwento at Pagsusuri Teknolohiya
BLOCKCHANCE at CONF3RENCE Magkaisa para sa Pinakamalaking Germany Web3 Kumperensya sa Dortmund
Mayo 9, 2024
Inilunsad ang NuLink Sa Bybit Web3 IDO Platform. Umaabot ang Yugto ng Subscription Hanggang Mayo 13
markets Ulat sa Balita Teknolohiya
Inilunsad ang NuLink Sa Bybit Web3 IDO Platform. Umaabot ang Yugto ng Subscription Hanggang Mayo 13
Mayo 9, 2024
Nagtutulungan ang UXLINK At Binance Sa Bagong Kampanya, Nag-aalok sa Mga User ng 20M UXUY Points At Airdrop Gantimpala
markets Ulat sa Balita Teknolohiya
Nagtutulungan ang UXLINK At Binance Sa Bagong Kampanya, Nag-aalok sa Mga User ng 20M UXUY Points At Airdrop Gantimpala
Mayo 9, 2024
Ang Side Protocol ay Inilunsad ang Incentivized Testnet At Ipinakilala ang Insider Point System, Nagbibigay-daan sa Mga User na Makakuha ng SIDE Points
markets Ulat sa Balita Teknolohiya
Ang Side Protocol ay Inilunsad ang Incentivized Testnet At Ipinakilala ang Insider Point System, Nagbibigay-daan sa Mga User na Makakuha ng SIDE Points
Mayo 9, 2024
CRYPTOMERIA LABS PTE. LTD.