Novinky Technika
Července 20, 2023

Stanfordova studie potvrzuje GPT-4 Stává se hloupější

Stručně

Studie Matei Zaharii a jeho týmu ze Stanfordu a UC Berkeley porovnávala výkon GPT-4 a ChatGPT řešit obavy uživatelů ohledně účinnosti modelu.

Studie hodnotila modely na čtyřech konkrétních úkolech: matematika, kódování, citlivost a vizuální uvažování.

Matei Zaharia a jeho tým ze Stanfordu a UC Berkeley provedla studii že porovnával výkon GPT-4 na ChatGPT. Toto šetření se snažilo vyřešit obavy uživatelů, že se účinnost modelu snížila.

Stanfordova studie potvrzuje GPT-4 Stává se hloupější
Credit: Metaverse Post
PODOBNÉ ČLÁNKY: GPT-4 vs GPT-3: Co nabízí nový model?

Výzkumníci navrhli studii tak, aby vyhodnotila modely na čtyřech konkrétních úkolech. Tyto úkoly zahrnovaly:

  • Matematika: Schopnost modelu určit, zda je dané číslo prvočíslo nebo složené.
  • Kódování: Posouzení schopnosti modelu generovat smysluplný a funkční kód.
  • Citlivost: Analýza odpovědí modelu na otázky s potenciálně „toxickým“ obsahem.
  • Vizuální uvažování: Testování schopnosti modelu řešit problémy, které zahrnují vizuální vzory, pomocí benchmarku ARC. Účastníci museli identifikovat vzory v sadě obrázků a použít je k vyřešení nového příkladu.

V oblasti matematiky obojí GPT-4 verze, březnové a červnové vydání, předvedly konzistentní přesnost při určování prvočísel a složených čísel. Modely prokázaly odbornost ve zpracování těchto výpočtů a poskytovaly spolehlivé výsledky.

Přejdeme ke kódování, GPT-4 ve srovnání se svými předchůdci vykazoval vylepšenou schopnost generovat smysluplný a funkční kód. Možnosti generování kódu modelu se ukázaly jako slibné a nabídly potenciální výhody pro vývojáře a programátory.

Pokud jde o citlivost, studie hodnotila odpovědi modelů na otázky obsahující potenciálně škodlivý nebo urážlivý obsah. GPT-4 prokázala vylepšenou analýzu citlivosti a prokázala zlepšenou schopnost poskytovat vhodné reakce v takových kontextech. To znamená pozitivní krok vpřed při řešení obav uživatelů z potenciálně problematických výstupů.

Nakonec oba úspěšně dokončili úkoly vizuálního uvažování založené na benchmarku ARC GPT-4 verze. Modely účinně identifikovaly vzory v sadách obrázků a prokázaly schopnost aplikovat tyto vzory k řešení nových příkladů. To ukazuje jejich schopnost vizuálního porozumění a uvažování.

Výsledky tomu nasvědčují GPT-4 vykázala pokles přesnosti, pouze něco málo přes 2 % správných odpovědí. Je důležité poznamenat, že tento konkrétní test primárně posuzuje schopnost modelu vybavit si data spíše než předvádění jeho přirozených matematických schopností. Úloha se točí kolem vyvolání paměti, protože model postrádá schopnost validace výpočtů a odvození, zejména pokud jde o prvočísla.

ChatGPT do června prokázala podstatný nárůst výkonnostních metrik a předvedla pozoruhodné více než desetinásobné zlepšení. I když se studie nezabývala konkrétními faktory přispívajícími k tomuto vylepšení, zdůrazňuje ChatGPT's pokrok v matematickém uvažování a schopnosti řešit problémy.

Studie neposuzovala kvalitu ani správnost vygenerovaného kódu. Místo toho se zdálo, že modely vykazují „vlastnější“ chování a nabízejí úryvky kódu, aniž by byla zajištěna jejich funkční přesnost.
PODOBNÉ ČLÁNKY: 10+ nejlepších AI Photo Enhancer v roce 2023

Kvalita GPT-4 a ChatGPT byl zpochybněn po analýze jejich programovacích schopností. Bližší pohled však odhalí některé fascinující nuance, které jsou v rozporu s prvním dojmem.

Autoři neprovedli ani neověřili správnost kódu; jejich hodnocení bylo založeno výhradně na jeho platnosti jako kódu Pythonu. Navíc se zdálo, že se modely naučily specifickou techniku ​​rámování kódu pomocí dekorátoru, což neúmyslně bránilo provádění kódu.

V důsledku toho je zřejmé, že ani výsledky, ani samotný experiment nelze považovat za důkaz degradace modelu. Namísto toho modely demonstrují odlišný přístup ke generování odpovědí, který potenciálně odráží variace v jejich tréninku.

Zkouška programovacích a matematických schopností GPT-4 a ChatGPT osvětlil zajímavé poznatky. Na rozdíl od původních předpokladů prokázaly modely pozoruhodná zlepšení v určitých oblastech, zatímco v jiných vykazovaly změny chování.

Pokud jde o programovací úlohy, oba modely vykazovaly pokles v reakcích na „špatné“ výzvy GPT-4 v takových případech vykazuje více než čtyřnásobné snížení. Navíc v úloze Visual Reasoning se kvalita odpovědí zlepšila o několik procentních bodů u obou modelů. Tato pozorování naznačují spíše pokrok než snížení výkonu.

Hodnocení matematických dovedností však přináší zajímavý prvek. Modely konzistentně poskytovaly prvočísla jako odpovědi, což znamenalo konzistentní odpověď „ano“. Po zavedení složených čísel do vzorku se však ukázalo, že modely změnily své chování a začaly poskytovat „ne“ odpovědi, což naznačuje spíše nejistotu než pokles kvality. Samotný test je svérázný a jednostrannýa jeho výsledky lze přičíst spíše posunům v chování modelu než poklesu kvality.

Je důležité si uvědomit, že byly testovány verze API, nikoli verze založené na prohlížeči. I když je možné, že modely v prohlížeči prošly úpravami za účelem optimalizace zdrojů, přiložená studie nikoli defituto hypotézu nitivně prokázat. Dopad takových směn může být srovnatelný se skutečnými downgrady modelu, což vede k potenciálním problémům pro uživatele, kteří spoléhají na konkrétní pracovní výzvy a nashromážděné zkušenosti.

V případě GPT-4 API aplikace, mohou mít tyto odchylky v chování hmatatelné důsledky. Kód, který byl vyvinut na základě potřeb a úkolů konkrétního uživatele, již nemusí fungovat tak, jak bylo zamýšleno, pokud model projde změnami ve svém chování.

Doporučuje se, aby uživatelé začlenili podobné testovací postupy do svých pracovních postupů. Vytvořením sady výzev, doprovodných textů a očekávaných výsledků mohou uživatelé pravidelně kontrolovat shodu mezi svými očekáváními a odpověďmi modelu. Jakmile jsou zjištěny odchylky, mohou být přijata vhodná opatření k nápravě situace.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
Trhy Novinky Technika
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
8
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
Trhy Vývoj Příběhy a recenze Technika
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
8
Crypto Trading Platform BitMEX uvádí na trh opční obchodování s 0 poplatky a hotovostními pobídkami
Business Trhy Novinky
Crypto Trading Platform BitMEX uvádí na trh opční obchodování s 0 poplatky a hotovostními pobídkami
8
Lisk oficiálně přechází na Ethereum Layer 2 a odhaluje Core v4.0.6
Novinky Technika
Lisk oficiálně přechází na Ethereum Layer 2 a odhaluje Core v4.0.6
8
CRYPTOMERIA LABS PTE. LTD.