GPT-4Nutekėjusios detalės atskleidžia jos didžiulį mastą ir įspūdingą architektūrą
Trumpai
Nutekėjusi informacija apie GPT-4 sukėlė jaudulį AI bendruomenėje. Turėdamas daugiau nei 10 kartų didesnius parametrus nei jo pirmtakas, GPT-3, GPT-4 Manoma, kad turi 1.8 trilijono parametrų, paskirstytų 120 sluoksnių.
OpenAI įdiegtas ekspertų mišinio (MoE) modelis, pasitelkęs 16 ekspertų su 111 milijardų parametrų daugiasluoksniams perceptronams (MLP). Efektyvus modelio išvadų procesas naudoja 280 milijardų parametrų ir 560 TFLOP per į priekį, o tai rodo OpenAIįsipareigojo maksimaliai padidinti efektyvumą ir ekonomiškumą. Modelio mokymo duomenų rinkinyje yra 13 trilijonų žetonų, kurių koregavimas yra nuo 8k iki 32k.
OpenAI naudojo lygiagretumą GPT-4 išnaudoti visą savo A100 GPU potencialą, naudojant 8 krypčių tenzorinį lygiagretumą ir 15 krypčių vamzdynų lygiagretumą. Mokymo procesas buvo platus ir reikalaujantis daug išteklių, jo išlaidos svyravo nuo 32 iki 63 mln.
GPT-4Išvados kaina yra maždaug tris kartus didesnė nei jos pirmtako, tačiau ji taip pat apima kelių užklausų dėmesį, nuolatinį paketų paketavimą ir spekuliacinį dekodavimą. Išvadų architektūra veikia 128 GPU grupėje, paskirstytoje keliuose duomenų centruose.
Neseniai nutekėjo aplinkinės detalės GPT-4 per AI bendruomenę išsiuntė šokiravimo bangas. Nutekėjusi informacija, gauta iš neatskleidžiamo šaltinio, leidžia pažvelgti į nuostabų šio novatoriško modelio galimybes ir precedento neturintį mastą. Mes išskaidysime faktus ir atskleisime pagrindinius aspektus GPT-4 tikras technologinis stebuklas.
- GPT-4Didelis parametrų skaičius
- Ekspertų mišinio modelis (MoE)
- Supaprastintas MoE maršruto parinkimo algoritmas
- Efektyvi išvada
- Išsamus mokymo duomenų rinkinys
- Patikslinimas naudojant tikslų derinimą nuo 8K iki 32K
- Mastelio keitimas naudojant GPU per lygiagretumą
- Mokymo išlaidos ir panaudojimo iššūkiai
- Kompromisai ekspertų mišinyje
- Išvados kaina
- Kelių užklausų dėmesys
- Nepertraukiamas partijų siuntimas
- Vision Multi-Modal
- Spekuliacinis dekodavimas
- Išvadų architektūra
- Duomenų rinkinio dydis ir sudėtis
- Gandai ir spėlionės
- Žurnalisto nuomonė
- Susižavėjimas GPT-4's Žinios
- Universalumas GPT-4
GPT-4Didelis parametrų skaičius
Vienas ryškiausių nuotėkio apreiškimų yra didžiulis nutekėjimo mastas GPT-4. Jis gali pasigirti stulbinamu dydžiu, kurio parametrai yra daugiau nei 10 kartų didesni nei jo pirmtako. GPT-3. Apskaičiuota, kad iš viso jų yra stulbinantis maždaug 1.8 trilijonų parametrų paskirstytas įspūdinguose 120 sluoksnių. Šis didelis masto padidėjimas neabejotinai prisideda prie GPT-4patobulintos galimybės ir novatoriškos pažangos potencialas.
Ekspertų mišinio modelis (MoE)
Siekdami užtikrinti pagrįstas išlaidas išlaikant išskirtinį našumą, OpenAI įgyvendino ekspertų mišinio (EM) modelį GPT-4. Modelyje pasitelkiant 16 ekspertų, kurių kiekvienas susideda iš maždaug 111 milijardų parametrų, skirtų daugiasluoksniams perceptronams (MLP), OpenAI efektyviai optimizuotas išteklių paskirstymas. Pažymėtina, kad kiekvieno važiavimo į priekį metu nukreipiami tik du ekspertai, sumažinant skaičiavimo reikalavimus nepakenkiant rezultatams. Šis novatoriškas požiūris įrodo OpenAIĮmonės įsipareigojimas maksimaliai padidinti savo modelių efektyvumą ir ekonomiškumą.
Labai įdomus ir išsamus nutekėjimas GPT-4 architektūra, su puikia jos motyvų ir jos pasekmių analize – by @dylan522p :https://t.co/eHE7VlGY5V
– Janas P. Harisas (@jphme) Liepa 11, 2023
Nemokamą santrauką rasite čia: https://t.co/rLxw5s9ZDt
Supaprastintas MoE maršruto parinkimo algoritmas
Nors modelis dažnai tiria pažangius maršruto parinkimo algoritmus, skirtus atrinkti ekspertus, kurie tvarkys kiekvieną prieigos raktą, OpenAIs požiūris į srovę GPT-4 Pranešama, kad modelis yra paprastesnis. Teigiama, kad AI naudojamas maršruto parinkimo algoritmas yra gana paprastas, bet vis dėlto veiksmingas. Maždaug 55 milijardai bendrų parametrų, skirtų dėmesiui, palengvina efektyvų žetonų paskirstymą atitinkamiems modelio ekspertams.
Efektyvi išvada
GPT-4Išvadų procesas parodo jo efektyvumą ir skaičiavimo meistriškumą. Kiekviename pirminiame žingsnyje, skirtame vienam prieigos raktui generuoti, naudojama maždaug 280 milijardų parametrų ir 560 TFLOP (tera slankiojo kablelio operacijos per sekundę). Tai ryškus kontrastas su didžiuliu mastu GPT-41.8 trilijono parametrų ir 3,700 TFLOP per priekinį perdavimą grynai tankiame modelyje. Efektyvus išteklių naudojimas pabrėžia OpenAIĮmonės atsidavimas pasiekti optimalų našumą be pernelyg didelių skaičiavimo reikalavimų.
Išsamus mokymo duomenų rinkinys
GPT-4 buvo apmokytas apie milžinišką duomenų rinkinį, kurį sudaro maždaug 13 trilijonų žetonų. Svarbu pažymėti, kad šie žetonai apima ir unikalius žetonus, ir epochos numerius apskaitančius žetonus. The mokymo procesas apima dvi epochas teksto duomenims ir keturias kodo duomenų epochas. OpenAI panaudojo milijonus eilučių instrukcijų koregavimo duomenų, gautų iš ScaleAI ir viduje, kad patobulintų modelio veikimą.
Patikslinimas naudojant tikslų derinimą nuo 8K iki 32K
Išankstinis treniruočių etapas GPT-4 naudojo 8k konteksto ilgį. Vėliau modelis buvo koreguojamas, todėl buvo sukurta 32k versija. Šis progresas grindžiamas išankstinio mokymo etapu, didinant modelio galimybes ir pritaikant jį konkrečioms užduotims.
Mastelio keitimas naudojant GPU per lygiagretumą
OpenAI panaudojo paralelizmo galią GPT-4 kad išnaudotų visą savo A100 GPU potencialą. Jie naudojo 8 krypčių tenzorinį lygiagretumą, kuris maksimaliai padidina lygiagretų apdorojimą, nes tai yra NVLink riba. Be to, siekiant dar labiau pagerinti našumą, buvo panaudotas 15 krypčių dujotiekio lygiagretumas. Nors greičiausiai buvo naudojami specifiniai metodai, tokie kaip ZeRo Stage 1, tiksli metodika lieka neatskleista.
Mokymo išlaidos ir panaudojimo iššūkiai
mokymas GPT-4 buvo platus ir daug išteklių reikalaujantis darbas. OpenAI per 25,000–100 dienų skyrė maždaug 90 100 A32 GPU, veikiančių maždaug 36–1 % MFU (dažniausiai naudojamas). Treniruotės procesas patyrė daugybę nesėkmių, todėl reikėjo dažnai paleisti iš patikrinimo punktų. Jei apskaičiuotas 100 USD už AXNUMX valandų, mokymo išlaidos vien šis bėgimas siektų maždaug 63 mln.
Kompromisai ekspertų mišinyje
Ekspertų mišinio modelio įgyvendinimas pateikia keletą kompromisų. Jeigu GPT-4, OpenAI vietoj didesnio skaičiaus pasirinko 16 ekspertų. Šis sprendimas atspindi pusiausvyrą tarp geresnių nuostolių rezultatų ir įvairių užduočių apibendrinimo užtikrinimo. Daugiau ekspertų gali kelti iššūkių, susijusių su užduočių apibendrinimu ir konvergencija. OpenAIpasirinkimas sportuoti eksperto atsargumas pasirinkimas atitinka jų įsipareigojimą užtikrinti patikimą ir tvirtą veikimą.
Išvados kaina
Palyginti su savo pirmtaku, 175 milijardų parametrų Davinci modeliu, GPT-4išvadų kaina yra maždaug tris kartus didesnė. Šis neatitikimas gali būti siejamas su keliais veiksniais, įskaitant didesnes grupes, kurių reikia palaikyti GPT-4 ir mažesnis panaudojimas, pasiektas išvados metu. Įvertinimai rodo, kad apytikslė kaina yra 0.0049 USD už 1,000 128 žetonų už 100 A0.0021 GPU ir 1,000 USD cento už 128 100 žetonų už XNUMX HXNUMX GPU. GPT-4 su 8k. Šie skaičiai reiškia tinkamą panaudojimą ir didelius partijų dydžius, kurie yra esminiai aspektai optimizuojant išlaidas.
Kelių užklausų dėmesys
OpenAI pasitelkia kelių užklausų dėmesį (MQA), techniką, plačiai naudojamą šioje srityje GPT-4 taip pat. Įdiegus MQA, modeliui reikia tik vienos galvutės, o tai žymiai sumažina atminties talpą, reikalingą raktų-reikšmių talpyklai (KV cache). Nepaisant šio optimizavimo, reikia pažymėti, kad 32 tūkst GPT-4 negali būti pritaikytas 40 GB A100 GPU, o 8k riboja maksimalus paketo dydis.
Nepertraukiamas partijų siuntimas
Norėdami rasti pusiausvyrą tarp delsos ir išvadų išlaidų, OpenAI apima ir kintamus partijų dydžius, ir nuolatinį partijų įvedimą GPT-4. Šis prisitaikantis metodas leidžia lanksčiai ir efektyviai apdoroti, optimizuoti išteklių panaudojimą ir sumažinti skaičiavimo išlaidas.
Vision Multi-Modal
GPT-4 kartu su teksto koduotuvu pristato atskirą vizijos kodavimo įrenginį, kuriame yra kryžminis dėmesys. Ši architektūra, primenanti Flamingo, prideda papildomų parametrų prie jau įspūdingo 1.8 trilijono parametrų skaičiaus. GPT-4. Regėjimo modelis atskirai koreguojamas naudojant maždaug 2 trilijonus žetonų po tik teksto paruošimo etapo. Šis regėjimo gebėjimas įgalina autonominiai agentai skaityti tinklalapius, transkribuoti vaizdus ir interpretuoti vaizdo turinį – tai neįkainojamas turtas daugialypės terpės duomenų amžiuje.
Spekuliacinis dekodavimas
Įdomus aspektas GPT-4Išvadų strategija yra galimas spekuliacinio dekodavimo naudojimas. Šis metodas apima mažesnį ir greitesnį įdarbinimą modelis iš anksto sugeneruoti kelių žetonų prognozes. Tada šie numatyti žetonai įvedami į didesnį „orakulo“ modelį kaip viena partija. Jei mažesnis modelio prognozes suderinti su didesnio modelio susitarimu, keli žetonai gali būti iššifruoti kartu. Tačiau jei didesnis modelis atmeta juodraščio modelio numatytus žetonus, likusi partijos dalis atmetama, o išvados tęsiamos tik naudojant didesnį modelį. Šis metodas leidžia efektyviai dekoduoti, kartu priimant mažesnės tikimybės sekas. Verta paminėti, kad šios spėlionės šiuo metu lieka nepatvirtintos.
Išvadų architektūra
GPT-4Išvados procesas veikia 128 GPU klasteryje, paskirstytuose keliuose duomenų centruose skirtingose vietose. Šioje infrastruktūroje naudojamas 8 krypčių tenzorinis lygiagretumas ir 16 krypčių dujotiekio lygiagretumas, siekiant maksimaliai padidinti skaičiavimo efektyvumą. Kiekvienas mazgas, kurį sudaro 8 GPU, talpina maždaug 130 milijardų parametrų. Modelio dydis yra 120 sluoksnių, GPT-4 gali tilpti į 15 skirtingų mazgų, galbūt su mažiau sluoksnių pirmame mazge, nes reikia skaičiuoti įterpimus. Šie architektūriniai pasirinkimai palengvina aukštos kokybės išvadas ir parodo OpenAIįmonės įsipareigojimas peržengti skaičiavimo efektyvumo ribas.
Duomenų rinkinio dydis ir sudėtis
GPT-4 buvo apmokytas įspūdingais 13 trilijonų žetonų, suteikdamas jam platų teksto korpusą, iš kurio galima pasimokyti. Tačiau ne visi prieigos raktai gali būti įtraukti į žinomus duomenų rinkinius, naudojamus treniruočių metu. Nors duomenų rinkiniai, tokie kaip „CommonCrawl“ ir „RefinedWeb“, sudaro didelę dalį treniruočių duomenis, lieka dalis neapskaitytų žetonų, dažnai vadinamų „slaptais“ duomenimis.
Gandai ir spėlionės
Pasirodė spėlionės dėl šių neatskleistų duomenų kilmės. Vienas gandas rodo, kad į jį įtrauktas turinys iš populiarių platformų, tokių kaip Twitter, Reddit ir YouTube, pabrėžiant galimą vartotojų sukurto turinio įtaką formuojant. GPT-4žinių bazę. Be to, esama prielaidų, susijusių su plačių kolekcijų, tokių kaip „LibGen“, milijonų knygų saugykla, ir „Sci-Hub“, platforma, suteikianti prieigą prie daugelio mokslinių straipsnių, įtraukimo. Sąvoka, kad GPT-4 buvo apmokytas visame GitHub tinkle, taip pat išplito tarp AI entuziastų.
Žurnalisto nuomonė
Nors sklando daug gandų, svarbu į šiuos gandus žiūrėti atsargiai. Treniruotės GPT-4 gali būti labai naudingas specialus duomenų rinkinys, sudarytas iš koledžo vadovėlių. Šis duomenų rinkinys, apimantis daugybę kursų ir dalykų, galėjo būti kruopščiai surinktas rankomis. Kolegijos vadovėliai suteikia struktūrizuotą ir išsamią žinių bazę, kurią galima sėkmingai panaudoti mokant kalbos modelį ir kurią lengva konvertuoti į tekstinius failus. Įtraukus tokį duomenų rinkinį gali susidaryti įspūdis, kad GPT-4 išmano įvairias sritis.
Susižavėjimas GPT-4's Žinios
Vienas intriguojantis aspektas GPT-4Mokymas yra jo gebėjimas parodyti susipažinimą su konkrečiomis knygomis ir net prisiminti unikalius identifikatorius iš tokių platformų kaip Project Euler. Tyrėjai bandė ištraukti atmintinai išmoktas knygų dalis GPT-4 įgyti įžvalgų apie jo mokymą ir toliau kurstyti smalsumą apie vidinį modelio veikimą. Šie atradimai pabrėžia nuostabų pajėgumą GPT-4 išsaugoti informaciją ir pabrėžti įspūdingas didelio masto kalbų modelių galimybes.
Universalumas GPT-4
Platus spektras temų ir sričių, kurios GPT-4 gali iš pažiūros įsitraukti į demonstruoja savo universalumą. Nesvarbu, ar tai būtų atsakymai į sudėtingus kompiuterių mokslo klausimus, ar gilinimasis į filosofines diskusijas, GPT-4Įvairių duomenų rinkinių mokymas suteikia galimybę bendrauti su įvairių sričių naudotojais. Šis universalumas kyla dėl daugybės tekstinių išteklių, todėl jis yra vertingas įrankis daugeliui vartotojų.
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.