Júla 20, 2023

Stanfordova štúdia potvrdzuje GPT-4 Stáva sa hlúpejším

Zverejnené: 20. júla 2023 o 10:19 Aktualizované: 20. júla 2023 o 10:20

Upravené a skontrolované: 20. júla 2023 o 10:19

Stručne

Štúdia Matei Zaharia a jeho tímu zo Stanfordu a UC Berkeley porovnávala výkon GPT-4 a ChatGPT na riešenie obáv používateľov o efektívnosť modelu.

Štúdia hodnotila modely na štyroch špecifických úlohách: matematika, kódovanie, citlivosť a vizuálne uvažovanie.

Matei Zaharia a jeho tím zo Stanfordu a UC Berkeley uskutočnila štúdiu ktoré porovnávali výkon GPT-4 na ChatGPT. Toto vyšetrovanie sa snažilo vyriešiť obavy používateľov, že účinnosť modelu sa znížila.

Stanfordova štúdia potvrdzuje GPT-4 Stáva sa hlúpejším — kredit: Metaverse Post

príbuzný: GPT-4 vs. GPT-3: Čo ponúka nový model?

Výskumníci navrhli štúdiu tak, aby vyhodnotila modely na štyroch konkrétnych úlohách. Tieto úlohy zahŕňali:

Matematika: Schopnosť modelu určiť, či je dané číslo prvočíslo alebo zložené.
Kódovanie: Hodnotenie schopnosti modelu generovať zmysluplný a funkčný kód.
Citlivosť: Analýza odpovedí modelu na otázky s potenciálne „toxickým“ obsahom.
Vizuálne uvažovanie: Testovanie schopnosti modelu riešiť problémy, ktoré zahŕňajú vizuálne vzory, pomocou benchmarku ARC. Účastníci museli identifikovať vzory v súbore obrázkov a použiť ich na vyriešenie nového príkladu.

V oblasti matematiky oboje GPT-4 verzie, marcové a júnové vydania, preukázali konzistentnú presnosť pri určovaní prvočísel a zložených čísel. Modely preukázali odbornosť pri manipulácii s týmito výpočtami a poskytli spoľahlivé výsledky.

Prejdeme na kódovanie, GPT-4 v porovnaní so svojimi predchodcami vykazoval zlepšenú schopnosť generovať zmysluplný a funkčný kód. Možnosti generovania kódu modelu sa ukázali ako sľubné a ponúkajú potenciálne výhody pre vývojárov a programátorov.

Pokiaľ ide o citlivosť, štúdia hodnotila odpovede modelov na otázky s potenciálne škodlivým alebo urážlivým obsahom. GPT-4 preukázali rozšírenú analýzu citlivosti a preukázali zlepšenú schopnosť poskytnúť vhodné reakcie v takýchto kontextoch. Znamená to pozitívny krok vpred pri riešení obáv používateľov z potenciálne problematických výstupov.

Napokon, úlohy vizuálneho uvažovania založené na benchmarku ARC úspešne dokončili obaja GPT-4 verzií. Modely efektívne identifikovali vzory v súboroch obrázkov a preukázali schopnosť aplikovať tieto vzory na riešenie nových príkladov. To ukazuje ich schopnosť vizuálneho porozumenia a uvažovania.

Výsledky tomu nasvedčujú GPT-4 vykazovali pokles presnosti, len niečo málo cez 2 % správnych odpovedí. Je dôležité poznamenať, že tento konkrétny test v prvom rade hodnotí schopnosť modelu vybaviť si údaje a nie predvádzať jeho vlastné matematické schopnosti. Úloha sa točí okolo vyvolania pamäte, pretože modelu chýba schopnosť validácie výpočtov a odvodzovania, najmä pokiaľ ide o prvočísla.

ChatGPT do júna preukázali výrazný nárast ukazovateľov výkonnosti, čo predstavuje pozoruhodné, viac ako desaťnásobné zlepšenie. Hoci sa štúdia nezaoberala konkrétnymi faktormi, ktoré prispievajú k tomuto zlepšeniu, zdôrazňuje ChatGPT's pokrok v matematickom uvažovaní a schopnosti riešiť problémy.

Štúdia neposudzovala kvalitu ani správnosť vygenerovaného kódu. Namiesto toho sa zdalo, že modely vykazujú „vlastnejšie“ správanie a ponúkajú úryvky kódu bez toho, aby sa zabezpečila ich funkčná presnosť.

príbuzný: 10+ najlepších AI Photo Enhancer v roku 2023

Kvalita GPT-4 a ChatGPT bol spochybnený po analýze ich programovacích schopností. Bližší pohľad však odhalí niektoré fascinujúce nuansy, ktoré sú v rozpore s prvým dojmom.

Autori nespustili ani neoverili správnosť kódu; ich hodnotenie bolo založené výlučne na jeho platnosti ako kódu Python. Okrem toho sa zdalo, že modely sa naučili špecifickú techniku rámcovania kódu pomocou dekorátora, ktorý neúmyselne bránil vykonaniu kódu.

V dôsledku toho je zrejmé, že ani výsledky, ani samotný experiment nemožno považovať za dôkaz degradácie modelu. Namiesto toho modely demonštrujú odlišný prístup ku generovaniu odpovedí, čo potenciálne odráža variácie v ich tréningu.

Skúška programovacích a matematických schopností GPT-4 a ChatGPT osvetlila zaujímavé zistenia. Na rozdiel od počiatočných predpokladov modely preukázali výrazné zlepšenia v určitých oblastiach, zatiaľ čo v iných vykazovali zmeny správania.

Pokiaľ ide o programovacie úlohy, oba modely vykazovali pokles v odpovediach na „nesprávne“ výzvy GPT-4 v takýchto prípadoch vykazuje viac ako štvornásobné zníženie. Okrem toho pri úlohe Visual Reasoning sa kvalita odpovedí zlepšila o niekoľko percentuálnych bodov pre oba modely. Tieto pozorovania poukazujú skôr na pokrok ako na pokles výkonu.

Hodnotenie matematických zručností však prináša zaujímavý prvok. Modely konzistentne poskytovali prvočísla ako odpovede, čo naznačuje konzistentnú odpoveď „áno“. Po zavedení zložených čísel do vzorky sa však ukázalo, že modely zmenili svoje správanie a začali poskytovať „nie“ odpovede, čo naznačuje skôr neistotu ako pokles kvality. Samotný test je svojský a jednostrannýa jeho výsledky možno pripísať skôr posunom v správaní modelov než poklesu kvality.

Je dôležité poznamenať, že boli testované verzie API, a nie verzie založené na prehliadači. Aj keď je možné, že modely v prehliadači prešli úpravami na optimalizáciu zdrojov, priložená štúdia nie definitívne dokázať túto hypotézu. Vplyv takýchto zmien môže byť porovnateľný so skutočným znížením modelu, čo vedie k potenciálnym výzvam pre používateľov, ktorí sa spoliehajú na špecifické pracovné výzvy a nahromadené skúsenosti.

V prípade GPT-4 API, tieto odchýlky v správaní môžu mať hmatateľné následky. Kód, ktorý bol vyvinutý na základe potrieb a úloh konkrétneho používateľa, už nemusí fungovať podľa plánu, ak model prejde zmenami v jeho správaní.

Odporúča sa, aby používatelia začlenili podobné testovacie postupy do svojich pracovných postupov. Vytvorením súboru výziev, sprievodných textov a očakávaných výsledkov môžu používatelia pravidelne kontrolovať súlad medzi ich očakávaniami a odpoveďami modelu. Hneď ako sa zistia akékoľvek odchýlky, môžu sa prijať vhodné opatrenia na nápravu situácie.

Prečítajte si viac o AI:

Tagy:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.

Ďalšie články

Damir Yalalov