GPT-4Razkrite podrobnosti osvetljujejo njegovo ogromno in impresivno arhitekturo
Na kratko
Pricurljale informacije o GPT-4 je sprožil navdušenje v skupnosti AI. Z več kot 10-kratnimi parametri svojega predhodnika, GPT-3, GPT-4 Ocenjuje se, da ima 1.8 bilijona parametrov, porazdeljenih v 120 slojev.
OpenAI uvedel model mešanice strokovnjakov (MoE), ki uporablja 16 strokovnjakov s 111 milijardami parametrov za večplastne perceptrone (MLP). Učinkovit postopek sklepanja modela uporablja 280 milijard parametrov in 560 TFLOP-jev na prehod naprej, kar dokazuje OpenAIzavezanost maksimiranju učinkovitosti in stroškovne učinkovitosti. Nabor podatkov za usposabljanje modela vključuje 13 bilijonov žetonov s fino nastavitvijo od 8k do 32k.
OpenAI uporabil paralelizem v GPT-4 da izkoristijo polni potencial svojih grafičnih procesorjev A100 z uporabo 8-smernega tenzorskega paralelizma in 15-smernega cevovodnega paralelizma. Proces usposabljanja je bil obsežen in zahteval je veliko sredstev, stroški pa so znašali od 32 do 63 milijonov dolarjev.
GPT-4Stroški sklepanja so približno trikrat višji kot pri predhodniku, vendar vključuje tudi pozornost pri več poizvedbah, neprekinjeno serijsko obdelavo in špekulativno dekodiranje. Arhitektura sklepanja deluje na gruči 128 grafičnih procesorjev, porazdeljenih po več podatkovnih centrih.
Nedavno uhajanje podrobnosti o GPT-4 je povzročil šok v skupnosti AI. Razkrite informacije, pridobljene iz nerazkritega vira, ponujajo vpogled v osupljive zmogljivosti in neverjeten obseg tega revolucionarnega modela. Razčlenili bomo dejstva in razkrili ključne vidike, ki omogočajo GPT-4 pravi tehnološki čudež.
- GPT-4Ogromno število parametrov
- Model mešanice strokovnjakov (MoE)
- Poenostavljen algoritem usmerjanja MoE
- Učinkovito sklepanje
- Obsežen nabor podatkov o usposabljanju
- Izpopolnjevanje s fino nastavitvijo od 8K do 32K
- Skaliranje z grafičnimi procesorji prek paralelizma
- Stroški usposabljanja in izzivi uporabe
- Kompromisi v mešanici strokovnjakov
- Stroški sklepanja
- Pozornost na več poizvedb
- Neprekinjeno doziranje
- Vision Multi-Modal
- Špekulativno dekodiranje
- Arhitektura sklepanja
- Velikost in sestava nabora podatkov
- Govorice in špekulacije
- Novinarjevo mnenje
- Fascinacija z GPT-4Znanje
- Vsestranskost GPT-4
GPT-4Ogromno število parametrov
Eno najbolj presenetljivih razkritij uhajanja je sama razsežnost GPT-4. Ponaša se z osupljivo velikostjo, z več kot 10-krat večjimi parametri od svojega predhodnika, GPT-3. Ocenjuje se, da ima osupljivo skupno približno 1.8 trilijon parametrov porazdeljen po impresivnih 120 slojih. To znatno povečanje obsega nedvomno prispeva k GPT-4izboljšane zmogljivosti in potencial za prelomni napredek.
Model mešanice strokovnjakov (MoE)
Za zagotovitev razumnih stroškov ob ohranjanju izjemne učinkovitosti, OpenAI uvedel mešani model strokovnjakov (MoE). GPT-4. Z uporabo 16 strokovnjakov znotraj modela, od katerih je vsak sestavljen iz približno 111 milijard parametrov za večplastne perceptrone (MLP), OpenAI učinkovito optimizirano dodeljevanje virov. Med vsakim prehodom naprej sta preusmerjena samo dva strokovnjaka, kar zmanjša računalniške zahteve brez ogrožanja rezultatov. Ta inovativni pristop dokazuje OpenAIzavezanost maksimiranju učinkovitosti in stroškovne učinkovitosti njihovih modelov.
Zelo zanimivo in podrobno uhajanje GPT-4 arhitekture, z odlično analizo razlogov za to in njenih posledic – avtor @dylan522p :https://t.co/eHE7VlGY5V
— Jan P. Harries (@jphme) Julij 11, 2023
Povzetek brez plačljivega zidu je na voljo tukaj: https://t.co/rLxw5s9ZDt
Poenostavljen algoritem usmerjanja MoE
Medtem ko model pogosto raziskuje napredne algoritme usmerjanja za izbiro strokovnjakov za obravnavo vsakega žetona, OpenAIpristop v tok GPT-4 model naj bi bil bolj preprost. Algoritem usmerjanja, ki ga uporablja AI, naj bi bil razmeroma preprost, a kljub temu učinkovit. Približno 55 milijard deljenih parametrov za pozornost olajša učinkovito distribucijo žetonov ustreznim strokovnjakom znotraj modela.
Učinkovito sklepanje
GPT-4Postopek sklepanja prikazuje njegovo učinkovitost in računalniško zmogljivost. Vsak prehod naprej, namenjen generiranju enega samega žetona, uporablja približno 280 milijard parametrov in 560 TFLOP (tera operacij s plavajočo vejico na sekundo). To je v popolnem nasprotju z ogromnim obsegom GPT-4, s svojimi 1.8 trilijoni parametrov in 3,700 TFLOP-ji na prehod naprej v popolnoma gostem modelu. Poudarki učinkovite rabe virov OpenAIpredanost doseganju optimalne zmogljivosti brez pretiranih računalniških zahtev.
Obsežen nabor podatkov o usposabljanju
GPT-4 je bil usposobljen na ogromnem naboru podatkov, ki obsega približno 13 trilijonov žetonov. Pomembno je omeniti, da ti žetoni vključujejo edinstvene žetone in žetone, ki upoštevajo številke epoh. The proces usposabljanja vključuje dve epohi za podatke, ki temeljijo na besedilu, in štiri epohe za podatke, ki temeljijo na kodi. OpenAI je izkoristil milijone vrstic podatkov za fino uravnavanje navodil, pridobljenih iz ScaleAI in interno, za izboljšanje zmogljivosti modela.
Izpopolnjevanje s fino nastavitvijo od 8K do 32K
Faza pred treningom GPT-4 uporabil dolžino konteksta 8k. Kasneje je bil model podvržen fini nastavitvi, kar je povzročilo različico 32k. To napredovanje temelji na fazi pred usposabljanjem, izboljšuje zmogljivosti modela in ga prilagaja specifičnim nalogam.
Skaliranje z grafičnimi procesorji prek paralelizma
OpenAI izkoristil moč paralelizma v GPT-4 da izkoristijo polni potencial svojih grafičnih procesorjev A100. Uporabili so 8-smerni tenzorski paralelizem, ki poveča vzporedno procesiranje, saj je to meja za NVLink. Poleg tega je bil uporabljen 15-smerni paralelizem cevovoda za nadaljnje izboljšanje zmogljivosti. Čeprav so bile verjetno uporabljene posebne tehnike, kot je ZeRo Stage 1, natančna metodologija ostaja nerazkrita.
Stroški usposabljanja in izzivi uporabe
usposabljanje GPT-4 je bil obsežen in zahteval veliko sredstev. OpenAI dodelil približno 25,000 grafičnih procesorjev A100 v obdobju od 90 do 100 dni, ki delujejo s stopnjo izkoriščenosti približno 32 % do 36 % MFU (najpogosteje uporabljeni). Proces treninga je povzročil številne napake, zaradi česar so bili potrebni pogosti ponovni začetki s kontrolnih točk. Če je ocenjeno na 1 USD na A100 uro, je stroški usposabljanja samo ta serija bi znašala približno 63 milijonov dolarjev.
Kompromisi v mešanici strokovnjakov
Izvajanje modela mešanice strokovnjakov predstavlja več kompromisov. V primeru GPT-4, OpenAI odločilo za 16 strokovnjakov namesto za večje število. Ta odločitev odraža ravnotežje med doseganjem vrhunskih izgubnih rezultatov in zagotavljanjem posplošljivosti v različnih nalogah. Več strokovnjakov lahko predstavlja izziv v smislu posplošitve in konvergence nalog. OpenAIizbira vadbe previdnost pri strokovnjaku izbira je v skladu z njihovo zavezanostjo zanesljivemu in robustnemu delovanju.
Stroški sklepanja
V primerjavi s svojim predhodnikom, Davincijevim modelom s 175 milijardami parametrov, GPT-4Stroški sklepanja so približno trikrat višji. To neskladje je mogoče pripisati več dejavnikom, vključno z večjimi grozdi, potrebnimi za podporo GPT-4 in manjšo uporabo, doseženo med sklepanjem. Ocene kažejo približno ceno 0.0049 $ centa na 1,000 žetonov za 128 GPU A100 in 0.0021 $ centa na 1,000 žetonov za 128 GPE H100 pri sklepanju GPT-4 z 8k. Te številke predvidevajo dostojno uporabo in velike velikosti serij, kar je ključnega pomena za optimizacijo stroškov.
Pozornost na več poizvedb
OpenAI izkorišča pozornost z več poizvedbami (MQA), tehniko, ki se pogosto uporablja na tem področju, v GPT-4 prav tako. Z implementacijo MQA model zahteva samo eno glavo, kar znatno zmanjša pomnilniško zmogljivost, potrebno za predpomnilnik ključ-vrednost (KV predpomnilnik). Kljub tej optimizaciji je treba opozoriti, da serija 32k GPT-4 ni mogoče namestiti na grafične procesorje A40 s 100 GB, 8k pa je omejen z največjo velikostjo serije.
Neprekinjeno doziranje
Če želite doseči ravnotežje med zakasnitvijo in stroški sklepanja, OpenAI vključuje spremenljive velikosti serij in neprekinjeno doziranje GPT-4. Ta prilagodljivi pristop omogoča prilagodljivo in učinkovito obdelavo, optimizira uporabo virov in zmanjšuje stroške računanja.
Vision Multi-Modal
GPT-4 uvaja ločen kodirnik vida poleg kodirnika besedila, ki vključuje navzkrižno pozornost med obema. Ta arhitektura, ki spominja na Flamingo, dodaja dodatne parametre k že impresivnemu številu parametrov, ki znaša 1.8 trilijona. GPT-4. Model vizije je podvržen ločeni fini nastavitvi z uporabo približno 2 bilijonov žetonov po fazi predhodnega usposabljanja samo za besedilo. Ta sposobnost vizije daje moč avtonomni agenti za branje spletnih strani, prepisovanje slik in interpretacijo video vsebin – neprecenljivo bogastvo v dobi multimedijskih podatkov.
Špekulativno dekodiranje
Zanimiv vidik GPT-4Strategija sklepanja je možna uporaba špekulativnega dekodiranja. Ta pristop vključuje uporabo manjšega, hitrejšega Model za vnaprejšnje ustvarjanje napovedi za več žetonov. Ti predvideni žetoni se nato vnesejo v večji model "oracle" kot ena serija. Če je manjši napovedi modela v skladu z dogovorom o večjem modelu je več žetonov mogoče dekodirati skupaj. Če pa večji model zavrne žetone, ki jih predvideva osnutek modela, se preostali del serije zavrže in sklepanje se nadaljuje samo z večjim modelom. Ta pristop omogoča učinkovito dekodiranje, medtem ko potencialno sprejema zaporedja z manjšo verjetnostjo. Omeniti velja, da te špekulacije trenutno ostajajo nepreverjene.
Arhitektura sklepanja
GPT-4Postopek sklepanja deluje na gruči 128 grafičnih procesorjev, porazdeljenih po več podatkovnih centrih na različnih lokacijah. Ta infrastruktura uporablja 8-smerni tenzorski paralelizem in 16-smerni cevovodni paralelizem za čim večjo računalniško učinkovitost. Vsako vozlišče, sestavljeno iz 8 grafičnih procesorjev, sprejme približno 130 milijard parametrov. Z velikostjo modela 120 plasti, GPT-4 se lahko prilega v 15 različnih vozlišč, po možnosti z manj plastmi v prvem vozlišču zaradi potrebe po izračunu vdelav. Te arhitekturne izbire omogočajo visoko zmogljivo sklepanje, dokazovanje OpenAIpredanost premikanju meja računalniške učinkovitosti.
Velikost in sestava nabora podatkov
GPT-4 je bil usposobljen na impresivnih 13 bilijonih žetonov, kar mu je zagotovilo obsežen korpus besedila, iz katerega se je lahko učil. Vendar pa vseh žetonov ni mogoče upoštevati z znanimi nabori podatkov, uporabljenimi med usposabljanjem. Medtem ko nabori podatkov, kot sta CommonCrawl in RefinedWeb, prispevajo pomemben del podatki o usposabljanju, ostaja del žetonov, ki so neznani in se pogosto imenujejo "tajni" podatki.
Govorice in špekulacije
Pojavila so se ugibanja o izvoru teh nerazkritih podatkov. Ena govorica nakazuje, da vključuje vsebino s priljubljenih platform, kot so Twitter, Reddit in YouTube, s čimer poudarja potencialni vpliv vsebine, ki jo ustvarijo uporabniki, na oblikovanje GPT-4baza znanja. Poleg tega obstajajo domneve o vključitvi obsežnih zbirk, kot sta LibGen, repozitorij milijonov knjig, in Sci-Hub, platforma, ki omogoča dostop do številnih znanstvenih člankov. Pojem, da GPT-4 je bil usposobljen za celoten GitHub, je prav tako krožil med navdušenci AI.
Novinarjevo mnenje
Čeprav je govoric veliko, je pomembno, da se teh govoric lotimo previdno. Usposabljanje za GPT-4 morda zelo koristil poseben nabor podatkov, sestavljen iz visokošolskih učbenikov. Ta nabor podatkov, ki zajema široko paleto tečajev in predmetov, bi lahko skrbno sestavili ročno. Visokošolski učbeniki zagotavljajo strukturirano in celovito bazo znanja, ki jo je mogoče uspešno uporabiti za usposabljanje jezikovnega modela in jih je enostavno pretvoriti v besedilne datoteke. Vključitev takega nabora podatkov bi lahko dala vtis, da GPT-4 ima znanje na različnih področjih.
Fascinacija z GPT-4Znanje
En intriganten vidik GPT-4Usposabljanje uporabnika je njegova sposobnost pokazati poznavanje določenih knjig in celo priklic edinstvenih identifikatorjev s platform, kot je Project Euler. Raziskovalci so poskušali izluščiti na pamet naučene dele knjig GPT-4 da bi pridobili vpogled v njegovo usposabljanje, kar še dodatno spodbuja radovednost o notranjem delovanju modela. Ta odkritja poudarjajo osupljivo zmogljivost GPT-4 ohraniti informacije in poudariti impresivne zmožnosti obsežnih jezikovnih modelov.
Vsestranskost GPT-4
Širok spekter tem in področij, ki GPT-4 lahko navidezno sodeluje z izložbami svoje vsestranskosti. Ne glede na to, ali gre za odgovore na zapletena vprašanja iz računalništva ali za poglabljanje v filozofske razprave, GPT-4Usposabljanje na raznolikem naboru podatkov ga opremi za sodelovanje z uporabniki iz različnih področij. Ta vsestranskost izhaja iz njegove izpostavljenosti širokemu naboru besedilnih virov, zaradi česar je dragoceno orodje za širok krog uporabnikov.
Preberite več o AI:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.