Stanford tanulmánya megerősíti GPT-4 Egyre hülyébb
Röviden
Matei Zaharia és csapata a Stanfordból és az UC Berkeley-ből hasonlította össze a teljesítményét GPT-4 és a ChatGPT a modell hatékonyságával kapcsolatos felhasználói aggodalmak kezelésére.
A tanulmány négy konkrét feladaton értékelte a modelleket: matematika, kódolás, érzékenység és vizuális érvelés.
Matei Zaharia és csapata a Stanfordból és az UC Berkeley-ből tanulmányt végzett amely összehasonlította a teljesítményét GPT-4 nak nek ChatGPT. Ez a vizsgálat a felhasználók azon aggályait kívánta kezelni, hogy a modell hatékonysága csökkent.
Összefüggő: GPT-4 vs GPT-3: Mit kínál az új modell? |
A kutatók úgy tervezték meg a tanulmányt, hogy négy konkrét feladat alapján értékeljék a modelleket. Ezek a feladatok a következőket tartalmazták:
- Matematika: A modell azon képessége, hogy meghatározza, hogy egy adott szám prím-e vagy összetett-e.
- Kódolás: A modell azon képességének felmérése, hogy értelmes és funkcionális kódot generáljon.
- Érzékenység: A modell válaszainak elemzése potenciálisan „mérgező” tartalmú kérdésekre.
- Vizuális érvelés: A modell alkalmasságának tesztelése olyan problémák megoldására, amelyek vizuális mintákat tartalmaznak, az ARC benchmark segítségével. A résztvevőknek mintákat kellett azonosítaniuk egy képkészletben, és alkalmazniuk kellett egy új példa megoldásához.
A matematika területén mindkettő GPT-4 verziók, a márciusi és júniusi kiadások következetes pontosságot mutattak a prímszámok és az összetett számok meghatározásában. A modellek jártasságot mutattak e számítások kezelésében, és megbízható eredményeket adtak.
Továbblépve a kódolásra, GPT-4 Elődeihez képest jobb képességet mutatott értelmes és funkcionális kód generálására. A modell kódgeneráló képességei ígéretesnek bizonyultak, potenciális előnyöket kínálva a fejlesztők és programozók számára.
Az érzékenység tekintetében a tanulmány értékelte a modellek válaszait a potenciálisan káros vagy sértő tartalmat tartalmazó kérdésekre. GPT-4 fokozott érzékenységi elemzést mutatott be, és jobb képességet mutatott arra, hogy megfelelő válaszokat adjon ilyen összefüggésekben. Ez pozitív előrelépést jelent a potenciálisan problémás kimenetekkel kapcsolatos felhasználói aggodalmak kezelésében.
Végül az ARC benchmarkon alapuló vizuális érvelési feladatokat mindketten sikeresen elvégezték GPT-4 verziók. A modellek hatékonyan azonosították a képkészleteken belüli mintákat, és megmutatták, hogy képesek ezeket a mintákat új példák megoldására alkalmazni. Ez megmutatja a vizuális megértésre és érvelésre való képességüket.
ChatGPT júniusra jelentős növekedést mutatott a teljesítménymutatókban, ami figyelemre méltó, több mint tízszeres javulást mutat. Bár a tanulmány nem foglalkozott azokkal a konkrét tényezőkkel, amelyek hozzájárultak ehhez a javuláshoz, kiemeli ChatGPTElőrehaladását a matematikai érvelés és problémamegoldó képességek terén.
A minősége GPT-4 és a ChatGPT programozási képességeik elemzése után kérdőjelezték meg. Azonban közelebbről megvizsgálva néhány lenyűgöző árnyalatot fedezünk fel, amelyek ellentmondanak az első benyomásnak.
A szerzők nem hajtották végre és nem ellenőrizték a kód helyességét; értékelésük kizárólag a Python kódként való érvényességén alapult. Ezenkívül úgy tűnt, hogy a modellek megtanultak egy speciális kódkeretezési technikát egy dekorátor segítségével, amely akaratlanul is akadályozta a kód végrehajtását.
Ennek eredményeként nyilvánvalóvá válik, hogy sem az eredmények, sem maga a kísérlet nem tekinthető a modell leromlásának bizonyítékának. Ehelyett a modellek más megközelítést mutatnak be a válaszok generálására, ami potenciálisan tükrözi a képzésük eltéréseit.
Ami a programozási feladatokat illeti, mindkét modell csökkenést mutatott a „rossz” felszólításokra való reagálásban GPT-4 az ilyen esetekben több mint négyszeres csökkenést mutat. Ezenkívül a Vizuális érvelés feladatnál a válaszok minősége néhány százalékponttal javult mindkét modell esetében. Ezek a megfigyelések a teljesítmény előrehaladását, nem pedig a teljesítmény romlását jelzik.
A matematikai készségek felmérése azonban bevezet egy érdekes elemet. A modellek következetesen prímszámokat adtak válaszként, ami konzisztens „igen” választ jelez. Mégis, amikor az összetett számokat bevezették a mintába, nyilvánvalóvá vált, hogy a modellek megváltoztatták viselkedésüket, és „nem” válaszokat kezdtek adni, ami inkább bizonytalanságra utal, mint a minőség romlására. Maga a teszt sajátos és egyoldalú, és eredményei inkább a modell viselkedésében bekövetkezett változásoknak, semmint a minőség romlásának tulajdoníthatók.
Fontos megjegyezni, hogy az API-verziókat tesztelték, és nem a böngészőalapú verziókat. Bár lehetséges, hogy a böngésző modelljein az erőforrások optimalizálása érdekében módosításokat végeztek, a mellékelt tanulmány nem defihatározottan igazolni ezt a hipotézist. Az ilyen eltolódások hatása összevethető a modell tényleges leminősítésével, ami potenciális kihívásokhoz vezethet azon felhasználók számára, akik konkrét működésre támaszkodnak. utasításokat és a felhalmozott tapasztalat.
Abban az esetben, GPT-4 API-alkalmazások esetén ezek a viselkedésbeli eltérések kézzelfogható következményekkel járhatnak. Előfordulhat, hogy egy adott felhasználó igényei és feladatai alapján kifejlesztett kód már nem fog megfelelően működni, ha a modell viselkedésében megváltozik.
Javasoljuk, hogy a felhasználók hasonló tesztelési gyakorlatokat építsenek be munkafolyamataikba. A felszólítások, a kísérő szövegek és a várt eredmények létrehozásával a felhasználók rendszeresen ellenőrizhetik az elvárásaik és a modell válaszai közötti összhangot. Amint bármilyen eltérést észlel, meg lehet tenni a megfelelő intézkedéseket a helyzet orvoslására.
Tudjon meg többet az AI-ról:
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.