Július 11, 2023

GPT-4A kiszivárgott részletek rávilágítanak a hatalmas méretekre és lenyűgöző építészetre

Közzétéve: 11. július 2023., 7:19 Frissítve: 11. július 2023., 7:23

Szerkesztve és tényszerűen ellenőrzött: 11. július 2023. 7:19

Röviden

A kiszivárgott információk kb GPT-4 izgalmat váltott ki az AI közösségben. Elődjénél több mint tízszeres paraméterekkel, GPT-3, GPT-4 becslések szerint 1.8 billió paraméter van elosztva 120 rétegben.

OpenAI szakértői keverék (MoE) modellt valósított meg, 16 szakértőt felhasználva 111 milliárd paraméterrel a többrétegű perceptronokhoz (MLP). A modell hatékony következtetési folyamata 280 milliárd paramétert és 560 TFLOP-t használ előremenetenként, ezzel demonstrálva OpenAIelkötelezettsége a hatékonyság és a költséghatékonyság maximalizálása mellett. A modell képzési adatkészlete 13 billió tokent tartalmaz, 8 ezerről 32 ezerre finomhangolással.

OpenAI párhuzamosságot használta fel GPT-4 hogy kihasználják az A100 GPU-jukban rejlő teljes potenciált, 8 utas tenzorpárhuzamot és 15 utas csővezeték párhuzamosságot alkalmazva. A képzési folyamat kiterjedt és erőforrás-igényes volt, a költségek 32 millió és 63 millió dollár között mozogtak.

GPT-4Következtetési költsége hozzávetőlegesen háromszor magasabb, mint elődje, de magában foglalja a több lekérdezést, a folyamatos kötegelést és a spekulatív dekódolást is. A következtetési architektúra 128 GPU-ból álló klaszteren működik, amelyek több adatközpont között vannak elosztva.

A közelmúltban kiszivárgott részletek GPT-4 sokkhullámokat küldött az AI közösségen keresztül. A nyilvánosságra nem hozott forrásból származó, kiszivárgott információk bepillantást engednek ennek az úttörő modellnek a félelmetes képességeibe és példátlan skálájába. Felbontjuk a tényeket, és leleplezzük a legfontosabb szempontokat GPT-4 igazi technológiai csoda.

GPT-4A kiszivárgott részletek rávilágítanak a hatalmas méretekre és lenyűgöző építészetre — jóváírás: Metaverse Post (mpost.io)

GPT-4Massive Parameters Count

A kiszivárogtatás egyik legszembetűnőbb kinyilatkoztatása a puszta nagysága GPT-4. Elképesztő mérettel büszkélkedhet, több mint 10-szeres paramétereivel, mint elődje, GPT-3. A becslések szerint elképesztő összesen körülbelül 1.8 billió paraméter lenyűgöző 120 rétegben elosztva. Ez a jelentős léptéknövekedés kétségtelenül hozzájárul ahhoz GPT-4továbbfejlesztett képességei és úttörő előrelépések lehetősége.

Szakértők keveréke (MoE)

Az ésszerű költségek biztosítása a kivételes teljesítmény megőrzése mellett, OpenAI ben valósította meg a szakértői keverék (ME) modellt GPT-4. A modellben 16 szakértő bevonásával, amelyek mindegyike körülbelül 111 milliárd paramétert tartalmaz a többrétegű perceptronokhoz (MLP), OpenAI hatékonyan optimalizált erőforrás-elosztás. Figyelemre méltó, hogy minden egyes előrehaladás során csak két szakértőt irányítanak, így minimálisra csökkentik a számítási követelményeket anélkül, hogy az eredményeket veszélyeztetnék. Ez az innovatív megközelítés bizonyítja OpenAIElkötelezettsége a modelljeik hatékonyságának és költséghatékonyságának maximalizálása iránt.

Nagyon érdekes és részletes szivárgás a GPT-4 építészet, a mögötte meghúzódó érvelések és következményei kiváló elemzésével – by @dylan522p :https://t.co/eHE7VlGY5V

A nem fizetős összefoglaló itt található: https://t.co/rLxw5s9ZDt
— Jan P. Harry (@jphme) Július 11, 2023

Egyszerűsített MoE Routing Algorithm

Míg a modell gyakran fejlett útválasztási algoritmusokat kutat az egyes token kezeléséhez szükséges szakértők kiválasztásához, OpenAImegközelítése az áramlatban GPT-4 A modell állítólag egyszerűbb. A mesterséges intelligencia által alkalmazott útválasztási algoritmus állítólag viszonylag egyszerű, de ennek ellenére hatékony. Körülbelül 55 milliárd megosztott figyelemi paraméter segíti elő a tokenek hatékony elosztását a megfelelő szakértők számára a modellen belül.

Hatékony következtetés

GPT-4következtetési folyamata bemutatja annak hatékonyságát és számítási képességeit. Minden egyes, egyetlen token generálására szolgáló előrelépés körülbelül 280 milliárd paramétert és 560 TFLOP-t (tera lebegőpontos művelet másodpercenként) használ fel. Ez éles ellentétben áll a hatalmas méretekkel GPT-41.8 billió paraméterrel és 3,700 TFLOP-val előremenetenként egy tisztán sűrű modellben. Az erőforrások hatékony felhasználása kiemeli OpenAIElkötelezettsége az optimális teljesítmény elérése túlzott számítási követelmények nélkül.

Kiterjedt képzési adatkészlet

GPT-4 egy körülbelül 13 billió tokent tartalmazó kolosszális adatkészletre képezték ki. Fontos megjegyezni, hogy ezek a tokenek egyedi tokeneket és korszakszámokat számláló tokeneket egyaránt tartalmaznak. A képzési folyamat két korszakot tartalmaz a szöveges adatokhoz és négy korszakot a kódalapú adatokhoz. OpenAI A ScaleAI-tól származó és belsőleg több millió sornyi utasítás-finomhangoló adatot használt fel a modell teljesítményének finomításához.

Az edzés előtti szakasz GPT-4 8k kontextushosszt alkalmazott. Ezt követően a modell finomhangoláson esett át, aminek eredménye a 32k-s verzió. Ez az előrehaladás az előképzési szakaszra épül, fejleszti a modell képességeit, és konkrét feladatokhoz szabja.

Méretezés GPU-kkal párhuzamosságon keresztül

OpenAI kihasználta a párhuzamosság erejét GPT-4 hogy kiaknázzák az A100 GPU-jukban rejlő lehetőségeket. 8-utas tenzorpárhuzamot alkalmaztak, ami maximalizálja a párhuzamos feldolgozást, mivel ez a határ az NVLink számára. Ezenkívül a 15 irányú csővezeték párhuzamosságát is felhasználták a teljesítmény további növelésére. Bár valószínűleg speciális technikákat, például a ZeRo Stage 1-et alkalmaztak, a pontos módszert nem hozták nyilvánosságra.

Képzési költségek és felhasználási kihívások

Képzések GPT-4 kiterjedt és erőforrás-igényes törekvés volt. OpenAI hozzávetőleg 25,000 100 A90 GPU-t osztott ki 100-32 nap alatt, körülbelül 36-1% MFU kihasználtsággal (leggyakrabban használt). A képzési folyamat számos meghibásodást okozott, ami gyakori újraindítást tett szükségessé az ellenőrző pontokról. Ha A100 óránként XNUMX dollárra becsüljük, a képzési költségek önmagában ez a futás körülbelül 63 millió dollárt jelentene.

Kompromisszumok a szakértők keverékében

A szakértők vegyes modelljének megvalósítása számos kompromisszumot rejt magában. Abban az esetben GPT-4, OpenAI a magasabb létszám helyett 16 szakértő mellett döntött. Ez a döntés egyensúlyt tükröz a kiváló veszteségi eredmények elérése és a különféle feladatok általánosíthatóságának biztosítása között. Több szakértő jelenthet kihívást a feladatok általánosítása és konvergencia szempontjából. OpenAIválasztása az edzésre óvatosság a szakértőben a kiválasztás összhangban van a megbízható és robusztus teljesítmény iránti elkötelezettségükkel.

Következtetési költség

Elődjéhez, a 175 milliárd paraméterű Davinci modellhez képest GPT-4Következtetési költsége körülbelül háromszor magasabb. Ez az eltérés több tényezőnek tudható be, beleértve a támogatáshoz szükséges nagyobb klasztereket GPT-4 és a következtetés során elért alacsonyabb kihasználtság. A becslések szerint 0.0049 A1,000 GPU esetén 128 dollár cent 100 tokenenként, 0.0021 H1,000 GPU esetén pedig 128 dollár cent 100 tokenenként GPT-4 egy 8k-val. Ezek a számok megfelelő kihasználtságot és nagy tételméreteket feltételeznek, amelyek kulcsfontosságúak a költségoptimalizálás szempontjából.

Több lekérdezés figyelem

OpenAI kihasználja a multi-query figyelem (MQA), a területen széles körben alkalmazott technikát GPT-4 is. Az MQA megvalósításával a modell csak egy fejet igényel, ami jelentősen csökkenti a kulcsérték gyorsítótár (KV cache) számára szükséges memóriakapacitást. Az optimalizálás ellenére meg kell jegyezni, hogy a 32k tétel GPT-4 nem helyezhető el 40 GB-os A100 GPU-kon, és a 8k-t korlátozza a maximális kötegméret.

Folyamatos adagolás

A késleltetés és a következtetési költségek közötti egyensúly megteremtése érdekében OpenAI magában foglalja a változó adagméreteket és a folyamatos adagolást is GPT-4. Ez az adaptív megközelítés rugalmas és hatékony feldolgozást tesz lehetővé, optimalizálja az erőforrás-kihasználást és csökkenti a számítási többletterhelést.

GPT-4 külön látáskódolót vezet be a szövegkódoló mellett, amely a kettő közötti keresztfigyelést biztosít. Ez a Flamingóra emlékeztető architektúra további paraméterekkel egészíti ki az amúgy is lenyűgöző, 1.8 milliárdos paraméterszámot. GPT-4. A látásmodell külön finomhangoláson megy keresztül körülbelül 2 billió token felhasználásával a csak szöveges előképzési fázist követően. Ez a látási képesség erőt ad autonóm ágensek weboldalak olvasására, képek átírására és videotartalmak értelmezésére – ez felbecsülhetetlen érték a multimédiás adatok korában.

Spekulatív dekódolás

Érdekes aspektusa GPT-4következtetési stratégiája a spekulatív dekódolás lehetséges használata. Ez a megközelítés kisebb, gyorsabb alkalmazást jelent modell hogy előrejelzéseket generáljon több tokenre vonatkozóan. Ezek a megjósolt tokenek ezután egyetlen kötegként betáplálódnak egy nagyobb „oracle” modellbe. Ha a kisebb a modell előrejelzései igazodjon a nagyobb modell megállapodásához, több token együtt dekódolható. Ha azonban a nagyobb modell elutasítja a vázlatmodell által megjósolt tokeneket, akkor a köteg többi részét eldobjuk, és a következtetés kizárólag a nagyobb modellel folytatódik. Ez a megközelítés lehetővé teszi a hatékony dekódolást, miközben potenciálisan elfogadja a kisebb valószínűségű sorozatokat. Érdemes megjegyezni, hogy ez a spekuláció egyelőre nem igazolt.

Következtetési architektúra

GPT-4A következtetési folyamat 128 GPU-ból álló klaszteren működik, amelyek több adatközpont között vannak elosztva különböző helyeken. Ez az infrastruktúra 8-utas tenzorpárhuzamot és 16-utas csővezeték-párhuzamot alkalmaz a számítási hatékonyság maximalizálása érdekében. Minden csomópont, amely 8 GPU-t tartalmaz, körülbelül 130 milliárd paramétert tartalmaz. 120 rétegű modellmérettel, GPT-4 15 különböző csomóponton belül elfér, esetleg kevesebb réteggel az első csomópontban a beágyazások kiszámításának szükségessége miatt. Ezek az építészeti választások megkönnyítik a nagy teljesítményű következtetést, demonstrálva OpenAIElkötelezettsége a számítási hatékonyság határainak feszegetése.

Adatkészlet mérete és összetétele

GPT-4 lenyűgöző, 13 billió tokenre képezték ki, amely kiterjedt szövegtömböt biztosított számára, amelyből tanulhat. Azonban nem minden token számolható el a képzés során használt ismert adatkészletekkel. Míg az olyan adatkészletek, mint a CommonCrawl és a RefinedWeb, hozzájárulnak a képzési adatok, megmarad a fel nem számolt tokenek egy része, amelyeket gyakran „titkos” adatoknak neveznek.

Pletykák és találgatások

Találgatások merültek fel e nyilvánosságra nem hozott adatok eredetével kapcsolatban. Az egyik pletyka azt sugallja, hogy olyan népszerű platformokról, mint a Twitter, a Reddit és a YouTube tartalmat tartalmaz, kiemelve a felhasználók által generált tartalom lehetséges hatását a formálásban. GPT-4tudásbázisa. Ezen túlmenően vannak sejtések olyan kiterjedt gyűjtemények bevonásával kapcsolatban, mint a LibGen, amely könyvek millióinak tárháza, és a Sci-Hub, amely számos tudományos közleményhez hozzáférést biztosít. Az a felfogás, hogy GPT-4 A GitHub egészére képezték ki, és az AI-rajongók körében is elterjedt.

A riporter véleménye

Bár sok pletyka kering, fontos, hogy óvatosan közelítsünk ezekhez a pletykákhoz. A képzés a GPT-4 nagy hasznát vehette a főiskolai tankönyvekből összeállított speciális adathalmaz. Ezt az adatkészletet, amely a kurzusok és tantárgyak széles skáláját fedi le, gondosan, kézzel is össze lehetett volna állítani. A főiskolai tankönyvek strukturált és átfogó tudásbázist biztosítanak, amely sikeresen használható nyelvi modell képzésére, és könnyen konvertálható szöveges fájlokká. Egy ilyen adatkészlet felvétele azt a benyomást keltheti, hogy GPT-4 több területen is jártas.

A varázslat GPT-4's Tudás

Egy érdekes aspektusa GPT-4A képzés abban rejlik, hogy képes bemutatni bizonyos könyvek ismeretét, és akár egyedi azonosítókat is előhívni olyan platformokról, mint a Project Euler. A kutatók megpróbálták kinyerni a könyvek memorizált részeit GPT-4 hogy betekintést nyerjen a képzésbe, tovább táplálva a kíváncsiságot a modell belső működése iránt. Ezek a felfedezések rávilágítanak annak elképesztő képességére GPT-4 információk megtartása és a nagyszabású nyelvi modellek lenyűgöző képességeinek hangsúlyozása.

A sokoldalúság GPT-4

A témák és területek széles spektruma, amely GPT-4 sokoldalúságát mutatja be. Legyen szó összetett számítástechnikai kérdések megválaszolásáról vagy filozófiai vitákba való belemerülésről, GPT-4A változatos adatkészletre vonatkozó képzése felkészíti a vállalatot arra, hogy kapcsolatba lépjen a különböző tartományokból származó felhasználókkal. Ez a sokoldalúság a szöveges források széles skálájának való kitettségéből fakad, így a felhasználók széles köre számára értékes eszköz.

Tudjon meg többet az AI-ról:

Címkék:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.

További cikkek

Damir Jalalov