Kinukumpirma ng Pag-aaral ng Stanford GPT-4 Nagiging Dumber
Sa madaling sabi
Inihambing ng isang pag-aaral ni Matei Zaharia at ng kanyang koponan mula sa Stanford at UC Berkeley ang pagganap ng GPT-4 at ChatGPT upang matugunan ang mga alalahanin ng gumagamit tungkol sa pagiging epektibo ng modelo.
Sinuri ng pag-aaral ang mga modelo sa apat na partikular na gawain: matematika, coding, sensitivity, at visual na pangangatwiran.
Matei Zaharia at ang kanyang koponan mula sa Stanford at UC Berkeley nagsagawa ng isang pag-aaral na inihambing ang pagganap ng GPT-4 sa ChatGPT. Ang pagsisiyasat na ito ay naghangad na matugunan ang mga alalahanin ng gumagamit na ang pagiging epektibo ng modelo ay lumiit.
Dinisenyo ng mga mananaliksik ang pag-aaral upang suriin ang mga modelo sa apat na partikular na gawain. Kasama sa mga gawaing ito ang:
- Mathematics: Ang kakayahan ng modelo na matukoy kung prime o composite ang isang naibigay na numero.
- Coding: Pagtatasa sa kakayahan ng modelo na bumuo ng makabuluhan at functional na code.
- Sensitivity: Pagsusuri sa mga tugon ng modelo sa mga tanong na may potensyal na "nakakalason" na nilalaman.
- Visual Reasoning: Pagsubok sa kakayahan ng modelo para sa paglutas ng mga problema na may kinalaman sa mga visual na pattern, gamit ang ARC benchmark. Kinailangan ng mga kalahok na tukuyin ang mga pattern sa isang hanay ng mga larawan at ilapat ang mga ito upang malutas ang isang bagong halimbawa.
Sa larangan ng matematika, pareho GPT-4 Ang mga bersyon, ang mga release ng Marso at Hunyo, ay nagpakita ng pare-parehong katumpakan sa pagtukoy ng mga prime at composite na numero. Ang mga modelo ay nagpakita ng kahusayan sa paghawak ng mga kalkulasyong ito, na nagbibigay ng maaasahang mga resulta.
Lumipat sa coding, GPT-4 nagpakita ng pinahusay na kakayahan upang makabuo ng makabuluhan at functional na code kumpara sa mga nauna nito. Ang mga kakayahan sa pagbuo ng code ng modelo ay nagpakita ng pangako, na nag-aalok ng mga potensyal na benepisyo para sa mga developer at programmer.
Tungkol sa pagiging sensitibo, tinasa ng pag-aaral ang mga tugon ng mga modelo sa mga tanong na naglalaman ng potensyal na nakakapinsala o nakakasakit na nilalaman. GPT-4 nagpakita ng pinahusay na pagsusuri sa sensitivity at nagpakita ng pinahusay na kakayahang magbigay ng mga naaangkop na tugon sa mga ganitong konteksto. Nangangahulugan ito ng isang positibong hakbang pasulong sa pagtugon sa mga alalahanin ng user tungkol sa mga potensyal na may problemang mga output.
Panghuli, ang mga gawaing visual na pangangatwiran batay sa benchmark ng ARC ay matagumpay na nakumpleto ng pareho GPT-4 mga bersyon. Ang mga modelo ay epektibong natukoy ang mga pattern sa loob ng mga set ng imahe at nagpakita ng kakayahang ilapat ang mga pattern na ito upang malutas ang mga bagong halimbawa. Ito ay nagpapakita ng kanilang kapasidad para sa visual na pag-unawa at pangangatwiran.
ChatGPT nagpakita ng malaking paglago sa mga sukatan ng pagganap sa Hunyo, na nagpapakita ng kahanga-hangang pagpapabuti ng higit sa sampung beses. Bagama't ang pag-aaral ay hindi nagsaliksik sa mga partikular na salik na nag-aambag sa pagpapahusay na ito, ito ay nagha-highlight ChatGPTang pagsulong sa matematikal na pangangatwiran at mga kakayahan sa paglutas ng problema.
Ang kalidad ng GPT-4 at ChatGPT ay tinanong pagkatapos ng pagsusuri ng kanilang mga kakayahan sa programming. Gayunpaman, ang isang mas malapit na pagtingin ay nagpapakita ng ilang mga kamangha-manghang mga nuances na sumasalungat sa mga unang impression.
Ang mga may-akda ay hindi nagsagawa o nag-verify ng code para sa kawastuhan; ang kanilang pagtatasa ay batay lamang sa bisa nito bilang Python code. Bukod pa rito, tila natutunan ng mga modelo ang isang partikular na pamamaraan ng pag-frame ng code gamit ang isang dekorador, na hindi sinasadyang humadlang sa pagpapatupad ng code.
Bilang resulta, nagiging maliwanag na ang mga kinalabasan o ang mismong eksperimento ay hindi maituturing na ebidensya ng pagkasira ng modelo. Sa halip, ang mga modelo ay nagpapakita ng ibang diskarte sa pagbuo ng mga tugon, na posibleng nagpapakita ng mga pagkakaiba-iba sa kanilang pagsasanay.
Pagdating sa mga gawain sa programming, ang parehong mga modelo ay nagpakita ng pagbaba sa pagtugon sa "maling" mga senyas, na may GPT-4 nagpapakita ng higit sa apat na beses na pagbawas sa mga ganitong pagkakataon. Bukod pa rito, sa gawaing Visual Reasoning, ang kalidad ng mga tugon ay napabuti ng ilang porsyentong puntos para sa parehong mga modelo. Ang mga obserbasyong ito ay nagpapahiwatig ng pag-unlad sa halip na pagkasira ng pagganap.
Gayunpaman, ang pagtatasa ng mga kasanayan sa matematika ay nagpapakilala ng isang nakakaintriga na elemento. Ang mga modelo ay patuloy na nagbibigay ng mga pangunahing numero bilang mga sagot, na nagpapahiwatig ng pare-parehong "oo" na tugon. Gayunpaman, sa pagpapakilala ng mga pinagsama-samang numero sa sample, naging maliwanag na inilipat ng mga modelo ang kanilang pag-uugali at nagsimulang magbigay ng "hindi" na mga tugon, na nagmumungkahi ng kawalan ng katiyakan sa halip na pagbaba sa kalidad. Ang pagsubok mismo ay kakaiba at isang panig, at ang mga resulta nito ay maaaring maiugnay sa mga pagbabago sa gawi ng modelo sa halip na pagbaba sa kalidad.
Mahalagang tandaan na ang mga bersyon ng API ay sinubukan, at hindi ang mga bersyong batay sa browser. Bagama't posible na ang mga modelo sa browser ay sumailalim sa mga pagsasaayos upang ma-optimize ang mga mapagkukunan, ang kalakip na pag-aaral ay hindi definitively patunayan ang hypothesis na ito. Ang epekto ng naturang mga pagbabago ay maihahambing sa aktwal na mga pag-downgrade ng modelo, na humahantong sa mga potensyal na hamon para sa mga user na umaasa sa partikular na pagtatrabaho mga senyas at naipon na karanasan.
Sa kaso ng GPT-4 Ang mga application ng API, ang mga paglihis na ito sa pag-uugali ay maaaring magkaroon ng mga nasasalat na kahihinatnan. Ang code na binuo batay sa mga pangangailangan at gawain ng isang partikular na user ay maaaring hindi na gumana ayon sa nilalayon kung ang modelo ay sumasailalim sa mga pagbabago sa pag-uugali nito.
Inirerekomenda na isama ng mga user ang mga katulad na kasanayan sa pagsubok sa kanilang mga daloy ng trabaho. Sa pamamagitan ng paglikha ng isang hanay ng mga prompt, kasamang mga text, at inaasahang resulta, maaaring regular na suriin ng mga user ang pagkakapare-pareho sa pagitan ng kanilang mga inaasahan at mga tugon ng modelo. Sa sandaling matukoy ang anumang mga paglihis, maaaring gumawa ng naaangkop na mga hakbang upang maitama ang sitwasyon.
Magbasa pa tungkol sa AI:
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.
Mas marami pang artikuloSi Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.