Srpanj 11, 2023

GPT-4Procurili detalji bacaju svjetlo na njegove goleme razmjere i impresivnu arhitekturu

Objavljeno: 11. srpnja 2023. u 7:19 Ažurirano: 11. srpnja 2023. u 7:23

Uređeno i provjereno: 11. srpnja 2023. u 7:19

Ukratko

Procurile su informacije o GPT-4 izazvao je uzbuđenje među AI zajednicom. S preko 10 puta većim parametrima od svog prethodnika, GPT-3, GPT-4 procjenjuje se da ima 1.8 trilijuna parametara raspoređenih u 120 slojeva.

OpenAI implementirao je model mješavine stručnjaka (MoE), koristeći 16 stručnjaka sa 111 milijardi parametara za višeslojne perceptrone (MLP). Učinkovit proces zaključivanja modela koristi 280 milijardi parametara i 560 TFLOP-a po prolazu naprijed, demonstrirajući OpenAIpredanost maksimiziranju učinkovitosti i isplativosti. Skup podataka za obuku modela uključuje 13 trilijuna tokena, s finim podešavanjem od 8k do 32k.

OpenAI koristio paralelizam u GPT-4 kako bi iskoristili puni potencijal svojih A100 GPU-ova, koristeći 8-smjerni paralelizam tenzora i 15-smjerni paralelizam cjevovoda. Proces obuke bio je opsežan i zahtijevao je dosta resursa, a troškovi su se kretali od 32 do 63 milijuna dolara.

GPT-4Trošak zaključivanja otprilike je tri puta veći od njegovog prethodnika, ali također uključuje pozornost na više upita, kontinuirano grupiranje i spekulativno dekodiranje. Arhitektura zaključivanja radi na klasteru od 128 GPU-a, raspoređenih u više podatkovnih centara.

Nedavno curenje detalja oko GPT-4 je uzburkao AI zajednicu. Procurile informacije, dobivene iz neotkrivenog izvora, pružaju uvid u zadivljujuće mogućnosti i neviđene razmjere ovog revolucionarnog modela. Razdvojit ćemo činjenice i otkriti ključne aspekte koji čine GPT-4 pravo tehnološko čudo.

GPT-4Procurili detalji bacaju svjetlo na njegove goleme razmjere i impresivnu arhitekturu — kredit: Metaverse Post (mpost.io)

GPT-4Broje se ogromni parametri

Jedno od najupečatljivijih otkrića iz curenja je sama veličina GPT-4. Može se pohvaliti zapanjujućom veličinom, s više od 10 puta većim parametrima od svog prethodnika, GPT-3. Procjenjuje se da ima nevjerojatan ukupni broj od otprilike 1.8 bilijun parametara raspoređenih na impresivnih 120 slojeva. Ovo znatno povećanje razmjera nedvojbeno pridonosi GPT-4poboljšane mogućnosti i potencijal za revolucionarni napredak.

Model mješavine stručnjaka (MoE)

Kako bi se osigurali razumni troškovi uz održavanje izuzetnih performansi, OpenAI implementirao model mješavine stručnjaka (MoE). GPT-4. Korištenjem 16 stručnjaka unutar modela, od kojih se svaki sastoji od oko 111 milijardi parametara za višeslojne perceptrone (MLP), OpenAI učinkovito optimizirana raspodjela resursa. Značajno je da se tijekom svakog prolaza naprijed usmjeravaju samo dva stručnjaka, minimizirajući računalne zahtjeve bez ugrožavanja rezultata. Ovaj inovativni pristup pokazuje OpenAIpredanost maksimiziranju učinkovitosti i isplativosti svojih modela.

Vrlo zanimljivo i detaljno curenje GPT-4 arhitekture, s izvrsnom analizom razloga koji stoje iza toga i njegovih implikacija – by @dylan522p :https://t.co/eHE7VlGY5V

Sažetak bez sustava plaćanja možete pronaći ovdje: https://t.co/rLxw5s9ZDt
— Jan P. Harries (@jphme) Srpanj 11, 2023

Pojednostavljeni MoE algoritam usmjeravanja

Dok model često istražuje napredne algoritme usmjeravanja za odabir stručnjaka koji će rukovati svakim tokenom, OpenAIpristup u struji GPT-4 model je navodno jednostavniji. Algoritam usmjeravanja koji upotrebljava AI navodno je relativno jednostavan, ali svejedno učinkovit. Približno 55 milijardi zajedničkih parametara za pozornost olakšavaju učinkovitu distribuciju tokena odgovarajućim stručnjacima unutar modela.

Učinkovito zaključivanje

GPT-4Proces zaključivanja pokazuje njegovu učinkovitost i računalno umijeće. Svaki prolaz naprijed, posvećen generiranju jednog tokena, koristi približno 280 milijardi parametara i 560 TFLOP-ova (tera operacija s pomičnim zarezom u sekundi). To je u oštroj suprotnosti s golemim razmjerima GPT-4, sa svojih 1.8 trilijuna parametara i 3,700 TFLOP-a po prolazu naprijed u čistom gustom modelu. Naglašava se učinkovito korištenje resursa OpenAIpredanost postizanju optimalnih performansi bez pretjeranih računalnih zahtjeva.

Opsežan skup podataka za obuku

GPT-4 obučen je na kolosalnom skupu podataka koji se sastoji od približno 13 trilijuna tokena. Važno je napomenuti da ovi tokeni uključuju i jedinstvene tokene i tokene koji se odnose na brojeve epoha. The trenažni proces uključuje dvije epohe za podatke temeljene na tekstu i četiri epohe za podatke temeljene na kodu. OpenAI iskoristio je milijune redaka podataka za fino ugađanje uputa koji potječu iz ScaleAI-a i interno kako bi poboljšali izvedbu modela.

Faza prije treninga GPT-4 koristio duljinu konteksta od 8k. Nakon toga, model je prošao fino ugađanje, što je rezultiralo verzijom od 32k. Ovo napredovanje nadograđuje se na fazu prije obuke, poboljšavajući sposobnosti modela i prilagođavajući ga specifičnim zadacima.

Skaliranje s GPU-ima putem paralelizma

OpenAI iskoristio snagu paralelizma u GPT-4 kako bi iskoristili puni potencijal svojih A100 GPU-ova. Koristili su 8-smjerni tenzorski paralelizam, koji maksimizira paralelnu obradu, budući da je to ograničenje za NVLink. Dodatno, 15-smjerni paralelizam cjevovoda korišten je za daljnje poboljšanje performansi. Iako su se vjerojatno koristile specifične tehnike kao što je ZeRo Stage 1, točna metodologija ostaje neotkrivena.

Troškovi obuke i izazovi korištenja

Trening GPT-4 bio je opsežan i resursno intenzivan pothvat. OpenAI dodijelio približno 25,000 A100 GPU-a tijekom razdoblja od 90 do 100 dana, koji rade sa stopom iskorištenja od približno 32% do 36% MFU (najčešće korišteni). Trenažni proces izazvao je brojne kvarove, što je zahtijevalo česte ponovne startove s kontrolnih točaka. Ako se procjenjuje na 1 USD po A100 satu, troškovi obuke jer bi samo ova serija iznosila približno 63 milijuna dolara.

Ustupci u kombinaciji stručnjaka

Implementacija modela mješavine stručnjaka predstavlja nekoliko kompromisa. U slučaju GPT-4, OpenAI odlučilo se za 16 stručnjaka umjesto većeg broja. Ova odluka odražava ravnotežu između postizanja vrhunskih rezultata gubitaka i osiguravanja generalizacije u različitim zadacima. Više stručnjaka može predstavljati izazove u smislu generalizacije i konvergencije zadataka. OpenAIizbor za vježbanje oprez u struč odabir je usklađen s njihovom predanošću pouzdanoj i robusnoj izvedbi.

Trošak zaključivanja

U usporedbi sa svojim prethodnikom, Davincijevim modelom od 175 milijardi parametara, GPT-4Trošak zaključivanja je otprilike tri puta veći. Ova se razlika može pripisati nekoliko čimbenika, uključujući veće klastere potrebne za podršku GPT-4 i manja iskoristivost postignuta tijekom zaključivanja. Procjene ukazuju na približnu cijenu od 0.0049 USD po 1,000 tokena za 128 A100 GPU-ova i 0.0021 USD po 1,000 tokena za 128 H100 GPU-ova kada se zaključi GPT-4 sa 8k. Ove brojke pretpostavljaju pristojnu iskorištenost i velike veličine serija, što je ključno za optimizaciju troškova.

Pažnja za više upita

OpenAI koristi višestruku pozornost (MQA), tehniku koja se naširoko koristi na terenu, u GPT-4 također. Implementacijom MQA, model zahtijeva samo jednu glavu, značajno smanjujući kapacitet memorije koji je potreban za ključ-vrijednost predmemorije (KV predmemorija). Unatoč ovoj optimizaciji, treba napomenuti da serija od 32k GPT-4 ne može se smjestiti na 40GB A100 GPU-ove, a 8k je ograničen maksimalnom veličinom serije.

Kontinuirano doziranje

Da biste uspostavili ravnotežu između kašnjenja i troškova zaključivanja, OpenAI uključuje varijabilne veličine serija i kontinuirano doziranje GPT-4. Ovaj prilagodljivi pristup omogućuje fleksibilnu i učinkovitu obradu, optimiziranje korištenja resursa i smanjenje troškova računanja.

GPT-4 uvodi zasebni vidni koder uz koder teksta, koji uključuje unakrsnu pozornost između njih dvoje. Ova arhitektura, koja podsjeća na Flamingo, dodaje dodatne parametre na već impresivnih 1.8 trilijuna parametara GPT-4. Model vizije prolazi zasebno fino ugađanje pomoću približno 2 trilijuna tokena nakon faze predosposobljavanja koja sadrži samo tekst. Ova sposobnost vizije osnažuje autonomni agenti za čitanje web stranica, transkripciju slika i tumačenje videosadržaja—neprocjenjivo bogatstvo u doba multimedijskih podataka.

Spekulativno dekodiranje

Zanimljiv aspekt GPT-4Strategija zaključivanja je moguća upotreba spekulativnog dekodiranja. Ovaj pristup uključuje korištenje manjeg, bržeg model za generiranje predviđanja za više tokena unaprijed. Ovi predviđeni tokeni se zatim unose u veći "oracle" model kao jedna serija. Ako je manji predviđanja modela u skladu sa sporazumom većeg modela, nekoliko tokena može se dekodirati zajedno. Međutim, ako veći model odbije tokene predviđene nacrtom modela, ostatak serije se odbacuje, a zaključivanje se nastavlja samo s većim modelom. Ovaj pristup omogućuje učinkovito dekodiranje uz potencijalno prihvaćanje nizova manje vjerojatnosti. Vrijedno je napomenuti da ova spekulacija u ovom trenutku ostaje neprovjerena.

Arhitektura zaključivanja

GPT-4Proces zaključivanja radi na klasteru od 128 GPU-a, raspoređenih u više podatkovnih centara na različitim lokacijama. Ova infrastruktura koristi 8-smjerni paralelizam tenzora i 16-smjerni paralelizam cjevovoda kako bi se maksimizirala računalna učinkovitost. Svaki čvor, koji se sastoji od 8 GPU-a, sadrži približno 130 milijardi parametara. S veličinom modela od 120 slojeva, GPT-4 može stati unutar 15 različitih čvorova, moguće s manje slojeva u prvom čvoru zbog potrebe za izračunavanjem ugrađivanja. Ovi arhitektonski izbori olakšavaju zaključivanje visokih performansi, pokazujući OpenAIpredanost pomicanju granica računalne učinkovitosti.

Veličina i sastav skupa podataka

GPT-4 obučen je na impresivnih 13 bilijuna tokena, pružajući mu opsežan korpus teksta iz kojeg može učiti. Međutim, ne mogu se svi tokeni objasniti poznatim skupovima podataka korištenim tijekom obuke. Iako skupovi podataka poput CommonCrawl i RefinedWeb doprinose značajnom dijelu podatke o treningu, ostaje dio tokena koji su nepoznati, često se nazivaju "tajnim" podacima.

Glasine i nagađanja

Pojavila su se nagađanja o podrijetlu ovih neobjavljenih podataka. Jedna glasina sugerira da uključuje sadržaj s popularnih platformi kao što su Twitter, Reddit i YouTube, ističući potencijalni utjecaj sadržaja koji generiraju korisnici u oblikovanju GPT-4baza znanja. Osim toga, postoje pretpostavke oko uključivanja ekspanzivnih zbirki poput LibGena, repozitorija milijuna knjiga, i Sci-Huba, platforme koja omogućuje pristup brojnim znanstvenim radovima. Pojam koji GPT-4 obučen na cijelom GitHubu također je kružio među AI entuzijastima.

Reporterovo mišljenje

Iako postoji mnogo glasina, važno je tim glasinama pristupiti s oprezom. Obuka od GPT-4 mogao imati velike koristi od posebnog skupa podataka sastavljenog od fakultetskih udžbenika. Ovaj skup podataka, koji pokriva širok raspon tečajeva i predmeta, mogao se mukotrpno sastaviti ručno. Fakultetski udžbenici pružaju strukturiranu i sveobuhvatnu bazu znanja koja se može uspješno koristiti za obuku jezičnog modela i lako se mogu pretvoriti u tekstualne datoteke. Uključivanje takvog skupa podataka moglo bi ostaviti dojam da GPT-4 ima znanja u raznim područjima.

Fascinacija s GPT-4je Znanje

Jedan intrigantan aspekt GPT-4Uvježbanost je njegova sposobnost da pokaže poznavanje određenih knjiga, pa čak i da se prisjeti jedinstvenih identifikatora s platformi kao što je Project Euler. Istraživači su pokušali izdvojiti napamet naučene dijelove knjiga iz GPT-4 kako bi stekao uvid u njegovu obuku, dodatno potičući znatiželju o unutarnjem funkcioniranju modela. Ova otkrića naglašavaju zadivljujući kapacitet GPT-4 zadržati informacije i naglasiti impresivne mogućnosti velikih jezičnih modela.

Svestranost od GPT-4

Širok spektar tema i područja koja GPT-4 može naizgled angažirati s izlozima svoju svestranost. Bilo da se radi o odgovaranju na složena pitanja iz računalne znanosti ili zalaženju u filozofske rasprave, GPT-4obuka na raznolikom skupu podataka osposobljava ga za interakciju s korisnicima iz raznih domena. Ova svestranost proizlazi iz njegove izloženosti širokom nizu tekstualnih izvora, što ga čini vrijednim alatom za širok raspon korisnika.

Pročitajte više o AI:

Oznake:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.

Više članaka

Damir Yalalov