Července 11, 2023

GPT-4Uniklé detaily vrhají světlo na jeho masivní měřítko a působivou architekturu

Zveřejněno: 11. července 2023 v 7:19 Aktualizováno: 11. července 2023 v 7:23

Upraveno a ověřeno: 11. července 2023 v 7:19

Stručně

Uniklé informace o GPT-4 vyvolalo nadšení v komunitě AI. S více než 10krát vyššími parametry než jeho předchůdce, GPT-3, GPT-4 odhaduje se, že má 1.8 bilionu parametrů rozdělených do 120 vrstev.

OpenAI implementovala model směsi expertů (MŽP) využívající 16 expertů se 111 miliardami parametrů pro vícevrstvé perceptrony (MLP). Efektivní proces odvození modelu využívá 280 miliard parametrů a 560 TFLOPs na dopředný průchod, což ukazuje OpenAIodhodlání maximalizovat efektivitu a nákladovou efektivitu. Tréninková datová sada modelu obsahuje 13 bilionů tokenů s doladěním od 8 32 do XNUMX XNUMX.

OpenAI využíval paralelismus v GPT-4 k využití plného potenciálu jejich GPU A100, využívajících 8cestný paralelismus tenzoru a 15cestný paralelismus potrubí. Školicí proces byl rozsáhlý a náročný na zdroje, náklady se pohybovaly od 32 milionů do 63 milionů USD.

GPT-4Inferenční náklady jsou přibližně třikrát vyšší než u jeho předchůdce, ale také zahrnuje pozornost při více dotazech, nepřetržité dávkování a spekulativní dekódování. Inferenční architektura funguje na clusteru 128 GPU, distribuovaných v několika datových centrech.

Nedávný únik podrobností o okolí GPT-4 vyslala do komunity AI otřesy. Uniklé informace získané z nezveřejněného zdroje umožňují nahlédnout do úžasných schopností a bezprecedentního rozsahu tohoto převratného modelu. Rozebereme fakta a odhalíme klíčové aspekty, které tvoří GPT-4 skutečný technologický zázrak.

GPT-4Uniklé detaily vrhají světlo na jeho masivní měřítko a působivou architekturu — Credit: Metaverse Post (mpost.io)

GPT-4Počet masivních parametrů

Jedním z nejpozoruhodnějších odhalení úniku je naprostý rozsah GPT-4. Může se pochlubit ohromující velikostí, s více než desetinásobnými parametry než jeho předchůdce, GPT-3. Odhaduje se, že má ohromující součet přibližně 1.8 bilion parametrů distribuováno v působivých 120 vrstvách. Toto podstatné zvýšení rozsahu k tomu nepochybně přispívá GPT-4vylepšené schopnosti a potenciál pro průlomový pokrok.

Model směsi odborníků (MŽP)

Aby byly zajištěny přiměřené náklady při zachování výjimečného výkonu, OpenAI implementoval model směsi expertů (MŽP). GPT-4. Využitím 16 expertů v rámci modelu, z nichž každý se skládá z přibližně 111 miliard parametrů pro vícevrstvé perceptrony (MLP), OpenAI efektivně optimalizované přidělování zdrojů. Je pozoruhodné, že během každého dopředného průchodu jsou směrováni pouze dva odborníci, což minimalizuje výpočetní požadavky bez kompromisů ve výsledcích. Tento inovativní přístup ukazuje OpenAIodhodlání maximalizovat efektivitu a nákladovou efektivitu svých modelů.

Velmi zajímavý a podrobný únik GPT-4 architektura, s vynikající analýzou zdůvodnění za ní a jejích důsledků – tím @dylan522p :https://t.co/eHE7VlGY5V

Neplacené shrnutí naleznete zde: https://t.co/rLxw5s9ZDt
— Jan P. Harries (@jphme) Července 11, 2023

Zjednodušený směrovací algoritmus MŽP

Zatímco model často prozkoumává pokročilé směrovací algoritmy pro výběr odborníků pro zpracování každého tokenu, OpenAI's přístup v proudu GPT-4 model je údajně přímočařejší. Směrovací algoritmus používaný AI je údajně relativně jednoduchý, ale přesto účinný. Přibližně 55 miliard sdílených parametrů pro pozornost usnadňuje efektivní distribuci tokenů příslušným odborníkům v rámci modelu.

Efektivní vyvozování

GPT-4Inferenční proces ukazuje jeho efektivitu a výpočetní zdatnost. Každý dopředný průchod, určený pro generování jednoho tokenu, využívá přibližně 280 miliard parametrů a 560 TFLOPs (tera operace s plovoucí desetinnou čárkou za sekundu). To je v ostrém kontrastu s obrovským rozsahem GPT-4, se svými 1.8 bilionu parametrů a 3,700 XNUMX TFLOPs na jeden průchod vpřed v čistě hustém modelu. Efektivní využití zdrojů zdůrazňuje OpenAIodhodlání dosáhnout optimálního výkonu bez nadměrných výpočetních požadavků.

Rozsáhlý tréninkový soubor dat

GPT-4 byla trénována na kolosálním datovém souboru obsahujícím přibližně 13 bilionů tokenů. Je důležité poznamenat, že tyto tokeny zahrnují jak jedinečné tokeny, tak tokeny, které zohledňují čísla epoch. The tréninkový proces obsahuje dvě epochy pro textová data a čtyři epochy pro kódová data. OpenAI využil miliony řádků instrukcí pro jemné ladění dat pocházejících ze ScaleAI a interně ke zlepšení výkonu modelu.

Předtréninková fáze GPT-4 používá kontextovou délku 8k. Následně prošel model jemným doladěním, výsledkem je verze 32k. Tento postup staví na předškolní fázi, zlepšuje schopnosti modelu a přizpůsobuje jej konkrétním úkolům.

Škálování s GPU prostřednictvím paralelního zpracování

OpenAI využil sílu paralelismu GPT-4 k využití plného potenciálu jejich GPU A100. Použili 8cestný tensorový paralelismus, který maximalizuje paralelní zpracování, protože je to limit pro NVLink. K dalšímu zvýšení výkonu byl navíc použit 15směrný paralelismus potrubí. I když byly pravděpodobně použity specifické techniky, jako je ZeRo Stage 1, přesná metodika zůstává nezveřejněna.

Výzvy týkající se nákladů na školení a využití

Trénink GPT-4 byla rozsáhlá a náročná na zdroje. OpenAI alokovalo přibližně 25,000 100 GPU A90 po dobu 100 až 32 dní, které pracovaly s mírou využití přibližně 36 % až 1 % MFU (nejčastěji používané). Tréninkový proces způsobil četné chyby, které vyžadovaly časté restarty z kontrolních bodů. Pokud se odhaduje na 100 USD za hodinu AXNUMX, náklady na školení jen tento běh by činil přibližně 63 milionů $.

Kompromisy ve směsi odborníků

Implementace modelu směsi odborníků představuje několik kompromisů. V případě GPT-4, OpenAI místo vyššího počtu zvolilo 16 odborníků. Toto rozhodnutí odráží rovnováhu mezi dosahováním vynikajících ztrátových výsledků a zajištěním zobecnitelnosti napříč různými úkoly. Více odborníků může představovat výzvy z hlediska zobecňování úkolů a konvergence. OpenAIvolba cvičit opatrnost u odborníka výběr je v souladu s jejich závazkem ke spolehlivému a robustnímu výkonu.

Náklady na odvození

Ve srovnání se svým předchůdcem, modelem Davinci se 175 miliardami parametrů, GPT-4inferenční náklady jsou přibližně třikrát vyšší. Tento nesoulad lze přičíst několika faktorům, včetně větších klastrů, které je třeba podporovat GPT-4 a nižší využití dosažené během inference. Odhady uvádějí přibližnou cenu 0.0049 centů za 1,000 128 tokenů pro 100 GPU A0.0021 a 1,000 centů za 128 100 tokenů pro XNUMX GPU HXNUMX při odvození GPT-4 s 8k. Tato čísla předpokládají slušné využití a velké velikosti dávek, což jsou zásadní úvahy pro optimalizaci nákladů.

Multi-Query Attention

OpenAI využívá vícedotazovou pozornost (MQA), techniku široce používanou v oboru GPT-4 také. Implementací MQA model vyžaduje pouze jednu hlavu, což výrazně snižuje kapacitu paměti nezbytnou pro mezipaměť klíče a hodnoty (KV cache). I přes tuto optimalizaci je třeba poznamenat, že 32k várka GPT-4 nelze umístit na 40GB GPU A100 a 8k je omezeno maximální velikostí dávky.

Průběžné dávkování

Chcete-li dosáhnout rovnováhy mezi latencí a odvozenými náklady, OpenAI zahrnuje jak variabilní velikosti dávek, tak kontinuální dávkování GPT-4. Tento adaptivní přístup umožňuje flexibilní a efektivní zpracování, optimalizuje využití zdrojů a snižuje výpočetní režii.

GPT-4 zavádí vedle textového kodéru samostatný kodér vidění, který se vyznačuje křížovou pozorností mezi těmito dvěma. Tato architektura připomínající Flamingo přidává další parametry k již tak působivému počtu 1.8 bilionu parametrů GPT-4. Model vidění prochází samostatným doladěním pomocí přibližně 2 bilionů tokenů po fázi předběžného školení pouze s textem. Tato schopnost vidění posiluje autonomní agenti číst webové stránky, přepisovat obrázky a interpretovat obsah videa – neocenitelný přínos ve věku multimediálních dat.

Spekulativní dekódování

Zajímavý aspekt GPT-4inferenční strategií je možné použití spekulativního dekódování. Tento přístup zahrnuje použití menšího, rychlejšího model pro generování předpovědí pro více tokenů předem. Tyto předpokládané tokeny jsou pak vloženy do většího „věšteckého“ modelu jako jedna dávka. Pokud menší předpovědi modelu v souladu s dohodou většího modelu lze společně dekódovat několik tokenů. Pokud však větší model odmítne tokeny předpokládané návrhovým modelem, zbytek dávky se zahodí a vyvozování pokračuje pouze u většího modelu. Tento přístup umožňuje účinné dekódování, přičemž potenciálně přijímá sekvence s nižší pravděpodobností. Stojí za zmínku, že tato spekulace zůstává v tuto chvíli neověřená.

Inferenční architektura

GPT-4Inferenční proces funguje na klastru 128 GPU, distribuovaných v několika datových centrech na různých místech. Tato infrastruktura využívá 8cestný tensorový paralelismus a 16cestný pipeline paralelismus pro maximalizaci výpočetní efektivity. Každý uzel obsahující 8 GPU pojme přibližně 130 miliard parametrů. S velikostí modelu 120 vrstev, GPT-4 může se vejít do 15 různých uzlů, případně s méně vrstvami v prvním uzlu kvůli potřebě vypočítat vložení. Tyto architektonické volby usnadňují vysoce výkonné vyvozování, demonstraci OpenAIodhodlání posouvat hranice výpočetní efektivity.

Velikost a složení datové sady

GPT-4 byl trénován na působivých 13 bilionech tokenů, což mu poskytlo rozsáhlý korpus textu, ze kterého se lze učit. Ne všechny tokeny však lze zohlednit pomocí známých datových sad používaných během školení. Zatímco datové sady jako CommonCrawl a RefinedWeb přispívají významnou částí tréninková data, zůstává část tokenů, které nejsou započítány, často označované jako „tajná“ data.

Pověsti a spekulace

Objevily se spekulace ohledně původu těchto nezveřejněných údajů. Jedna fáma naznačuje, že zahrnuje obsah z populárních platforem, jako je Twitter, Reddit a YouTube, což zdůrazňuje potenciální vliv obsahu vytvářeného uživateli na formování GPT-4znalostní báze. Kromě toho existují dohady týkající se zahrnutí rozsáhlých sbírek, jako je LibGen, úložiště milionů knih, a Sci-Hub, platforma poskytující přístup k mnoha vědeckým pracím. Představa, že GPT-4 byl vyškolen na celém GitHubu, který se také rozšířil mezi nadšence AI.

Názor zpravodaje

Přestože existuje mnoho fám, je důležité k těmto fámám přistupovat opatrně. Školení GPT-4 mohl mít velký užitek ze speciálního datového souboru složeného z vysokoškolských učebnic. Tento soubor dat, který pokrývá širokou škálu kurzů a předmětů, mohl být pečlivě sestaven ručně. Vysokoškolské učebnice poskytují strukturovanou a komplexní znalostní základnu, kterou lze úspěšně použít k trénování jazykového modelu a lze ji snadno převést na textové soubory. Zahrnutí takového souboru dat by mohlo vyvolat dojem GPT-4 vyzná se v různých oborech.

Fascinace s GPT-4's Knowledge

Jeden zajímavý aspekt GPT-4Školení spočívá v jeho schopnosti prokázat znalost konkrétních knih a dokonce si vybavit jedinečné identifikátory z platforem, jako je Project Euler. Badatelé se pokusili získat zpaměti části knih GPT-4 získat vhled do jeho tréninku, což dále podpoří zvědavost ohledně vnitřního fungování modelu. Tyto objevy zdůrazňují úžasnou schopnost GPT-4 uchovat informace a podtrhnout působivé schopnosti rozsáhlých jazykových modelů.

Všestrannost GPT-4

Široké spektrum témat a oborů, které GPT-4 může zdánlivě zaujmout vitrínami svou všestrannost. Ať už jde o odpovědi na složité otázky v informatice nebo o ponoření se do filozofických debat, GPT-4Školení na různorodé datové sadě jej vybaví k interakci s uživateli z různých domén. Tato všestrannost pramení z jeho vystavení obrovskému množství textových zdrojů, což z něj činí cenný nástroj pro širokou škálu uživatelů.

Přečtěte si více o AI:

Tagy:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.

Další články

Damir Yalalov