Naujienų ataskaita Technologija
Liepa 20, 2023

Stanfordo tyrimas patvirtina GPT-4 Darosi kvailesnis

Trumpai

Matei Zaharia ir jo komandos iš Stanfordo ir UC Berkeley atliktame tyrime buvo lyginami rezultatai GPT-4 ir ChatGPT Norėdami išspręsti vartotojų susirūpinimą dėl modelio efektyvumo.

Tyrimo metu modeliai buvo vertinami pagal keturias konkrečias užduotis: matematiką, kodavimą, jautrumą ir vizualinį samprotavimą.

Matei Zaharia ir jo komanda iš Stanfordo ir UC Berkeley atliko tyrimą, kuris palygino našumą GPT-4 į ChatGPT. Šiuo tyrimu buvo siekiama išspręsti vartotojų susirūpinimą, kad modelio veiksmingumas sumažėjo.

Stanfordo tyrimas patvirtina GPT-4 Darosi kvailesnis
Kreditas: Metaverse Post
Susijęs: GPT-4 vs GPT-3: Ką gali pasiūlyti naujasis modelis?

Tyrėjai sukūrė tyrimą, kad įvertintų keturių konkrečių užduočių modelius. Šios užduotys apėmė:

  • Matematika: modelio gebėjimas nustatyti, ar tam tikras skaičius yra pirminis, ar sudėtinis.
  • Kodavimas: modelio gebėjimo generuoti prasmingą ir funkcinį kodą įvertinimas.
  • Jautrumas: modelio atsakymų į klausimus, kurių turinys gali būti toksiškas, analizė.
  • Vizualinis samprotavimas: modelio tinkamumo sprendžiant problemas, susijusias su vaizdiniais modeliais, išbandymas naudojant ARC etaloną. Dalyviai turėjo nustatyti vaizdų rinkinio modelius ir pritaikyti juos naujam pavyzdžiui išspręsti.

Matematikos srityje tiek GPT-4 versijos, kovo ir birželio leidimai, parodė nuoseklų pirminių ir sudėtinių skaičių nustatymo tikslumą. Modeliai demonstravo gebėjimą atlikti šiuos skaičiavimus ir davė patikimus rezultatus.

Pereinant prie kodavimo, GPT-4 parodė patobulintą gebėjimą generuoti prasmingą ir funkcinį kodą, palyginti su jo pirmtakais. Modelio kodo generavimo galimybės pasirodė esąs daug žadančios, siūlančios potencialią naudą kūrėjams ir programuotojams.

Kalbant apie jautrumą, tyrime buvo įvertinti modelių atsakymai į klausimus, kuriuose yra potencialiai žalingo ar įžeidžiančio turinio. GPT-4 pademonstravo patobulintą jautrumo analizę ir patobulintą gebėjimą pateikti tinkamus atsakymus tokiais atvejais. Tai reiškia teigiamą žingsnį į priekį sprendžiant vartotojų susirūpinimą dėl potencialiai problemiškų rezultatų.

Galiausiai abu sėkmingai atliko vizualinio samprotavimo užduotis, pagrįstas ARC etalonu GPT-4 versijos. Modeliai efektyviai nustatė modelius vaizdų rinkiniuose ir parodė gebėjimą pritaikyti šiuos modelius sprendžiant naujus pavyzdžius. Tai parodo jų gebėjimą vizualiai suprasti ir samprotauti.

Rezultatai rodo, kad GPT-4 parodė, kad tikslumas sumažėjo, o teisingų atsakymų buvo tik šiek tiek daugiau nei 2 %. Svarbu pažymėti, kad šis konkretus testas pirmiausia įvertina modelio gebėjimą prisiminti duomenis, o ne demonstruoja jam būdingus matematinius gebėjimus. Užduotis sukasi apie atminties atkūrimą, nes modeliui trūksta skaičiavimo patvirtinimo ir išvadų galimybės, ypač kai kalbama apie pirminius skaičius.

ChatGPT birželio mėn. pademonstravo didelį veiklos rodiklių augimą, o tai rodo, kad pagerėjo daugiau nei dešimt kartų. Nors tyrime nebuvo gilinamasi į konkrečius veiksnius, prisidedančius prie šio patobulinimo, jis pabrėžia ChatGPT's matematinio samprotavimo ir problemų sprendimo gebėjimų pažanga.

Tyrimo metu nebuvo įvertinta sugeneruoto kodo kokybė ar teisingumas. Vietoj to, modeliai elgėsi labiau „įprastai“, siūlydami kodo fragmentus, neužtikrindami jų funkcinio tikslumo.
Susijęs: Daugiau nei 10 geriausių dirbtinio intelekto nuotraukų tobulinimo priemonių 2023 m

Kokybė GPT-4 ir ChatGPT buvo apklaustas atlikus jų programavimo gebėjimų analizę. Tačiau atidžiau pažvelgus, atsiskleidžia keletas žavių niuansų, kurie prieštarauja pirmajam įspūdžiui.

Autoriai nevykdė ir nepatikrino kodo teisingumo; jų vertinimas buvo pagrįstas tik jo kaip Python kodo galiojimu. Be to, atrodė, kad modeliai išmoko tam tikro kodo įrėminimo techniką naudodami dekoratorių, kuris netyčia trukdė vykdyti kodą.

Dėl to tampa akivaizdu, kad nei rezultatai, nei pats eksperimentas negali būti laikomi modelio pablogėjimo įrodymu. Vietoj to, modeliai demonstruoja skirtingą požiūrį į atsakymų generavimą, galintį atspindėti jų mokymo skirtumus.

Programavimo ir matematinių gebėjimų patikrinimas GPT-4 ir ChatGPT atskleidė įdomius atradimus. Priešingai nei buvo prielaida iš pradžių, modeliai parodė pastebimus patobulinimus tam tikrose srityse, o kitose – elgesio pokyčius.

Kalbant apie programavimo užduotis, abu modeliai parodė, kad sumažėjo atsakymas į „neteisingus“ raginimus GPT-4 tokiais atvejais sumažėjo daugiau nei keturis kartus. Be to, atliekant vizualinio samprotavimo užduotį, abiejų modelių atsakymų kokybė pagerėjo keliais procentiniais punktais. Šie stebėjimai rodo pažangą, o ne veiklos pablogėjimą.

Tačiau matematinių įgūdžių vertinimas įveda intriguojantį elementą. Modeliai nuosekliai pateikė pirminius skaičius kaip atsakymus, rodančius nuoseklų atsakymą „taip“. Tačiau į imtį įtraukus sudėtinius skaičius, paaiškėjo, kad modeliai pakeitė savo elgesį ir pradėjo teikti „ne“ atsakymus, o tai rodo netikrumą, o ne kokybės pablogėjimą. Pats testas yra savotiškas ir vienpusis, o jo rezultatai gali būti siejami su modelio elgesio pokyčiais, o ne su kokybės nuosmukiu.

Svarbu pažymėti, kad buvo išbandytos API versijos, o ne naršyklės versijos. Nors gali būti, kad naršyklės modeliai buvo pakoreguoti siekiant optimizuoti išteklius, pridėtame tyrime to nėra definityviai įrodyti šią hipotezę. Tokių poslinkių poveikis gali būti panašus į faktinį modelio atnaujinimą, todėl gali kilti problemų vartotojams, kurie priklauso nuo specifinio darbo. nurodymai ir sukaupta patirtis.

Jeigu GPT-4 API programos, šie elgesio nukrypimai gali turėti apčiuopiamų pasekmių. Kodas, sukurtas atsižvelgiant į konkrečius vartotojo poreikius ir užduotis, gali nebeveikti taip, kaip numatyta, jei pasikeis modelio elgsena.

Naudotojams rekomenduojama įtraukti panašią testavimo praktiką į savo darbo eigą. Sukurdami raginimų, lydimųjų tekstų ir laukiamų rezultatų rinkinį, vartotojai gali reguliariai tikrinti, ar jų lūkesčiai ir modelio atsakymai atitinka. Kai tik aptinkami bet kokie nukrypimai, galima imtis atitinkamų priemonių padėčiai ištaisyti.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Hot Stories
Prisijunkite prie mūsų naujienlaiškio.
Paskutinės naujienos

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
BLOCKCHANCE ir CONF3RENCE susivienikite dėl didžiausių Vokietijos Web3 Konferencija Dortmunde
Atsakingas verslas rinkos programinė įranga Istorijos ir apžvalgos Technologija
BLOCKCHANCE ir CONF3RENCE susivienikite dėl didžiausių Vokietijos Web3 Konferencija Dortmunde
Gali 9, 2024
„NuLink“ paleidžiama „Bybit“. Web3 IDO platforma. Prenumeratos etapas pratęsiamas iki gegužės 13 d
rinkos Naujienų ataskaita Technologija
„NuLink“ paleidžiama „Bybit“. Web3 IDO platforma. Prenumeratos etapas pratęsiamas iki gegužės 13 d
Gali 9, 2024
UXLINK ir Binance bendradarbiauja kurdami naują kampaniją, siūlydami vartotojams 20 mln. UXUY taškų ir Airdrop Apdovanojimai
rinkos Naujienų ataskaita Technologija
UXLINK ir Binance bendradarbiauja kurdami naują kampaniją, siūlydami vartotojams 20 mln. UXUY taškų ir Airdrop Apdovanojimai
Gali 9, 2024
„Side Protocol“ paleidžia skatinamąjį testavimo tinklą ir pristato vidinių taškų sistemą, leidžiančią vartotojams uždirbti šalutinių taškų
rinkos Naujienų ataskaita Technologija
„Side Protocol“ paleidžia skatinamąjį testavimo tinklą ir pristato vidinių taškų sistemą, leidžiančią vartotojams uždirbti šalutinių taškų
Gali 9, 2024
CRYPTOMERIA LABS PTE. LTD.