Tudósítást Technológia
Július 20, 2023

Stanford tanulmánya megerősíti GPT-4 Egyre hülyébb

Röviden

Matei Zaharia és csapata a Stanfordból és az UC Berkeley-ből hasonlította össze a teljesítményét GPT-4 és a ChatGPT a modell hatékonyságával kapcsolatos felhasználói aggodalmak kezelésére.

A tanulmány négy konkrét feladaton értékelte a modelleket: matematika, kódolás, érzékenység és vizuális érvelés.

Matei Zaharia és csapata a Stanfordból és az UC Berkeley-ből tanulmányt végzett amely összehasonlította a teljesítményét GPT-4 nak nek ChatGPT. Ez a vizsgálat a felhasználók azon aggályait kívánta kezelni, hogy a modell hatékonysága csökkent.

Stanford tanulmánya megerősíti GPT-4 Egyre hülyébb
jóváírás: Metaverse Post
Összefüggő: GPT-4 vs GPT-3: Mit kínál az új modell?

A kutatók úgy tervezték meg a tanulmányt, hogy négy konkrét feladat alapján értékeljék a modelleket. Ezek a feladatok a következőket tartalmazták:

  • Matematika: A modell azon képessége, hogy meghatározza, hogy egy adott szám prím-e vagy összetett-e.
  • Kódolás: A modell azon képességének felmérése, hogy értelmes és funkcionális kódot generáljon.
  • Érzékenység: A modell válaszainak elemzése potenciálisan „mérgező” tartalmú kérdésekre.
  • Vizuális érvelés: A modell alkalmasságának tesztelése olyan problémák megoldására, amelyek vizuális mintákat tartalmaznak, az ARC benchmark segítségével. A résztvevőknek mintákat kellett azonosítaniuk egy képkészletben, és alkalmazniuk kellett egy új példa megoldásához.

A matematika területén mindkettő GPT-4 verziók, a márciusi és júniusi kiadások következetes pontosságot mutattak a prímszámok és az összetett számok meghatározásában. A modellek jártasságot mutattak e számítások kezelésében, és megbízható eredményeket adtak.

Továbblépve a kódolásra, GPT-4 Elődeihez képest jobb képességet mutatott értelmes és funkcionális kód generálására. A modell kódgeneráló képességei ígéretesnek bizonyultak, potenciális előnyöket kínálva a fejlesztők és programozók számára.

Az érzékenység tekintetében a tanulmány értékelte a modellek válaszait a potenciálisan káros vagy sértő tartalmat tartalmazó kérdésekre. GPT-4 fokozott érzékenységi elemzést mutatott be, és jobb képességet mutatott arra, hogy megfelelő válaszokat adjon ilyen összefüggésekben. Ez pozitív előrelépést jelent a potenciálisan problémás kimenetekkel kapcsolatos felhasználói aggodalmak kezelésében.

Végül az ARC benchmarkon alapuló vizuális érvelési feladatokat mindketten sikeresen elvégezték GPT-4 verziók. A modellek hatékonyan azonosították a képkészleteken belüli mintákat, és megmutatták, hogy képesek ezeket a mintákat új példák megoldására alkalmazni. Ez megmutatja a vizuális megértésre és érvelésre való képességüket.

Az eredmények azt mutatják GPT-4 a pontosság csökkenést mutatott, a helyes válaszok alig több mint 2%-a volt. Fontos megjegyezni, hogy ez a teszt elsősorban a modell adatfelidézési képességét méri fel, nem pedig a benne rejlő matematikai képességeket. A feladat a memória előhívása körül forog, mivel a modellből hiányzik a számítások érvényesítésének és következtetéseinek képessége, különösen, ha prímszámokról van szó.

ChatGPT júniusra jelentős növekedést mutatott a teljesítménymutatókban, ami figyelemre méltó, több mint tízszeres javulást mutat. Bár a tanulmány nem foglalkozott azokkal a konkrét tényezőkkel, amelyek hozzájárultak ehhez a javuláshoz, kiemeli ChatGPTElőrehaladását a matematikai érvelés és problémamegoldó képességek terén.

A tanulmány nem értékelte a generált kód minőségét vagy helyességét. Ehelyett úgy tűnt, hogy a modellek „egyedibb” viselkedést mutattak, kódrészleteket kínálva anélkül, hogy biztosítanák azok funkcionális pontosságát.
Összefüggő: 10+ legjobb mesterséges intelligencia fotójavító 2023-ban

A minősége GPT-4 és a ChatGPT programozási képességeik elemzése után kérdőjelezték meg. Azonban közelebbről megvizsgálva néhány lenyűgöző árnyalatot fedezünk fel, amelyek ellentmondanak az első benyomásnak.

A szerzők nem hajtották végre és nem ellenőrizték a kód helyességét; értékelésük kizárólag a Python kódként való érvényességén alapult. Ezenkívül úgy tűnt, hogy a modellek megtanultak egy speciális kódkeretezési technikát egy dekorátor segítségével, amely akaratlanul is akadályozta a kód végrehajtását.

Ennek eredményeként nyilvánvalóvá válik, hogy sem az eredmények, sem maga a kísérlet nem tekinthető a modell leromlásának bizonyítékának. Ehelyett a modellek más megközelítést mutatnak be a válaszok generálására, ami potenciálisan tükrözi a képzésük eltéréseit.

A programozási és matematikai képességek vizsgálata GPT-4 és a ChatGPT érdekes megállapításokra világított rá. A kezdeti feltételezésekkel ellentétben a modellek bizonyos területeken jelentős javulást mutattak, míg másokon viselkedésbeli változásokat mutattak be.

Ami a programozási feladatokat illeti, mindkét modell csökkenést mutatott a „rossz” felszólításokra való reagálásban GPT-4 az ilyen esetekben több mint négyszeres csökkenést mutat. Ezenkívül a Vizuális érvelés feladatnál a válaszok minősége néhány százalékponttal javult mindkét modell esetében. Ezek a megfigyelések a teljesítmény előrehaladását, nem pedig a teljesítmény romlását jelzik.

A matematikai készségek felmérése azonban bevezet egy érdekes elemet. A modellek következetesen prímszámokat adtak válaszként, ami konzisztens „igen” választ jelez. Mégis, amikor az összetett számokat bevezették a mintába, nyilvánvalóvá vált, hogy a modellek megváltoztatták viselkedésüket, és „nem” válaszokat kezdtek adni, ami inkább bizonytalanságra utal, mint a minőség romlására. Maga a teszt sajátos és egyoldalú, és eredményei inkább a modell viselkedésében bekövetkezett változásoknak, semmint a minőség romlásának tulajdoníthatók.

Fontos megjegyezni, hogy az API-verziókat tesztelték, és nem a böngészőalapú verziókat. Bár lehetséges, hogy a böngésző modelljein az erőforrások optimalizálása érdekében módosításokat végeztek, a mellékelt tanulmány nem defihatározottan igazolni ezt a hipotézist. Az ilyen eltolódások hatása összevethető a modell tényleges leminősítésével, ami potenciális kihívásokhoz vezethet azon felhasználók számára, akik konkrét működésre támaszkodnak. utasításokat és a felhalmozott tapasztalat.

Abban az esetben, GPT-4 API-alkalmazások esetén ezek a viselkedésbeli eltérések kézzelfogható következményekkel járhatnak. Előfordulhat, hogy egy adott felhasználó igényei és feladatai alapján kifejlesztett kód már nem fog megfelelően működni, ha a modell viselkedésében megváltozik.

Javasoljuk, hogy a felhasználók hasonló tesztelési gyakorlatokat építsenek be munkafolyamataikba. A felszólítások, a kísérő szövegek és a várt eredmények létrehozásával a felhasználók rendszeresen ellenőrizhetik az elvárásaik és a modell válaszai közötti összhangot. Amint bármilyen eltérést észlel, meg lehet tenni a megfelelő intézkedéseket a helyzet orvoslására.

Tudjon meg többet az AI-ról:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
BLOCKCHANCE és CONF3RENCE Egyesüljön Németország legnagyobbjain Web3 Konferencia Dortmundban
üzleti piacok szoftver Történetek és vélemények Technológia
BLOCKCHANCE és CONF3RENCE Egyesüljön Németország legnagyobbjain Web3 Konferencia Dortmundban
May 9, 2024
A NuLink elindul a Bybiten Web3 IDO platform. Az előfizetési szakasz május 13-ig meghosszabbodik
piacok Tudósítást Technológia
A NuLink elindul a Bybiten Web3 IDO platform. Az előfizetési szakasz május 13-ig meghosszabbodik
May 9, 2024
Az UXLINK és a Binance együttműködik egy új kampányban, 20 millió UXUY pontot és Airdrop Jutalmak
piacok Tudósítást Technológia
Az UXLINK és a Binance együttműködik egy új kampányban, 20 millió UXUY pontot és Airdrop Jutalmak
May 9, 2024
A Side Protocol ösztönzött teszthálózatot indít, és bevezeti a bennfentes pontrendszert, amely lehetővé teszi a felhasználók számára, hogy SIDE pontokat szerezzenek
piacok Tudósítást Technológia
A Side Protocol ösztönzött teszthálózatot indít, és bevezeti a bennfentes pontrendszert, amely lehetővé teszi a felhasználók számára, hogy SIDE pontokat szerezzenek
May 9, 2024
CRYPTOMERIA LABS PTE. KFT.