Stanfordo tyrimas patvirtina GPT-4 Darosi kvailesnis
Trumpai
Matei Zaharia ir jo komandos iš Stanfordo ir UC Berkeley atliktame tyrime buvo lyginami rezultatai GPT-4 ir ChatGPT Norėdami išspręsti vartotojų susirūpinimą dėl modelio efektyvumo.
Tyrimo metu modeliai buvo vertinami pagal keturias konkrečias užduotis: matematiką, kodavimą, jautrumą ir vizualinį samprotavimą.
Matei Zaharia ir jo komanda iš Stanfordo ir UC Berkeley atliko tyrimą, kuris palygino našumą GPT-4 į ChatGPT. Šiuo tyrimu buvo siekiama išspręsti vartotojų susirūpinimą, kad modelio veiksmingumas sumažėjo.
Tyrėjai sukūrė tyrimą, kad įvertintų keturių konkrečių užduočių modelius. Šios užduotys apėmė:
- Matematika: modelio gebėjimas nustatyti, ar tam tikras skaičius yra pirminis, ar sudėtinis.
- Kodavimas: modelio gebėjimo generuoti prasmingą ir funkcinį kodą įvertinimas.
- Jautrumas: modelio atsakymų į klausimus, kurių turinys gali būti toksiškas, analizė.
- Vizualinis samprotavimas: modelio tinkamumo sprendžiant problemas, susijusias su vaizdiniais modeliais, išbandymas naudojant ARC etaloną. Dalyviai turėjo nustatyti vaizdų rinkinio modelius ir pritaikyti juos naujam pavyzdžiui išspręsti.
Matematikos srityje tiek GPT-4 versijos, kovo ir birželio leidimai, parodė nuoseklų pirminių ir sudėtinių skaičių nustatymo tikslumą. Modeliai demonstravo gebėjimą atlikti šiuos skaičiavimus ir davė patikimus rezultatus.
Pereinant prie kodavimo, GPT-4 parodė patobulintą gebėjimą generuoti prasmingą ir funkcinį kodą, palyginti su jo pirmtakais. Modelio kodo generavimo galimybės pasirodė esąs daug žadančios, siūlančios potencialią naudą kūrėjams ir programuotojams.
Kalbant apie jautrumą, tyrime buvo įvertinti modelių atsakymai į klausimus, kuriuose yra potencialiai žalingo ar įžeidžiančio turinio. GPT-4 pademonstravo patobulintą jautrumo analizę ir patobulintą gebėjimą pateikti tinkamus atsakymus tokiais atvejais. Tai reiškia teigiamą žingsnį į priekį sprendžiant vartotojų susirūpinimą dėl potencialiai problemiškų rezultatų.
Galiausiai abu sėkmingai atliko vizualinio samprotavimo užduotis, pagrįstas ARC etalonu GPT-4 versijos. Modeliai efektyviai nustatė modelius vaizdų rinkiniuose ir parodė gebėjimą pritaikyti šiuos modelius sprendžiant naujus pavyzdžius. Tai parodo jų gebėjimą vizualiai suprasti ir samprotauti.
ChatGPT birželio mėn. pademonstravo didelį veiklos rodiklių augimą, o tai rodo, kad pagerėjo daugiau nei dešimt kartų. Nors tyrime nebuvo gilinamasi į konkrečius veiksnius, prisidedančius prie šio patobulinimo, jis pabrėžia ChatGPT's matematinio samprotavimo ir problemų sprendimo gebėjimų pažanga.
Kokybė GPT-4 ir ChatGPT buvo apklaustas atlikus jų programavimo gebėjimų analizę. Tačiau atidžiau pažvelgus, atsiskleidžia keletas žavių niuansų, kurie prieštarauja pirmajam įspūdžiui.
Autoriai nevykdė ir nepatikrino kodo teisingumo; jų vertinimas buvo pagrįstas tik jo kaip Python kodo galiojimu. Be to, atrodė, kad modeliai išmoko tam tikro kodo įrėminimo techniką naudodami dekoratorių, kuris netyčia trukdė vykdyti kodą.
Dėl to tampa akivaizdu, kad nei rezultatai, nei pats eksperimentas negali būti laikomi modelio pablogėjimo įrodymu. Vietoj to, modeliai demonstruoja skirtingą požiūrį į atsakymų generavimą, galintį atspindėti jų mokymo skirtumus.
Kalbant apie programavimo užduotis, abu modeliai parodė, kad sumažėjo atsakymas į „neteisingus“ raginimus GPT-4 tokiais atvejais sumažėjo daugiau nei keturis kartus. Be to, atliekant vizualinio samprotavimo užduotį, abiejų modelių atsakymų kokybė pagerėjo keliais procentiniais punktais. Šie stebėjimai rodo pažangą, o ne veiklos pablogėjimą.
Tačiau matematinių įgūdžių vertinimas įveda intriguojantį elementą. Modeliai nuosekliai pateikė pirminius skaičius kaip atsakymus, rodančius nuoseklų atsakymą „taip“. Tačiau į imtį įtraukus sudėtinius skaičius, paaiškėjo, kad modeliai pakeitė savo elgesį ir pradėjo teikti „ne“ atsakymus, o tai rodo netikrumą, o ne kokybės pablogėjimą. Pats testas yra savotiškas ir vienpusis, o jo rezultatai gali būti siejami su modelio elgesio pokyčiais, o ne su kokybės nuosmukiu.
Svarbu pažymėti, kad buvo išbandytos API versijos, o ne naršyklės versijos. Nors gali būti, kad naršyklės modeliai buvo pakoreguoti siekiant optimizuoti išteklius, pridėtame tyrime to nėra definityviai įrodyti šią hipotezę. Tokių poslinkių poveikis gali būti panašus į faktinį modelio atnaujinimą, todėl gali kilti problemų vartotojams, kurie priklauso nuo specifinio darbo. nurodymai ir sukaupta patirtis.
Jeigu GPT-4 API programos, šie elgesio nukrypimai gali turėti apčiuopiamų pasekmių. Kodas, sukurtas atsižvelgiant į konkrečius vartotojo poreikius ir užduotis, gali nebeveikti taip, kaip numatyta, jei pasikeis modelio elgsena.
Naudotojams rekomenduojama įtraukti panašią testavimo praktiką į savo darbo eigą. Sukurdami raginimų, lydimųjų tekstų ir laukiamų rezultatų rinkinį, vartotojai gali reguliariai tikrinti, ar jų lūkesčiai ir modelio atsakymai atitinka. Kai tik aptinkami bet kokie nukrypimai, galima imtis atitinkamų priemonių padėčiai ištaisyti.
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.