Jūlijs 11, 2023

GPT-4Nopludinātās detaļas izgaismo tās milzīgo mērogu un iespaidīgo arhitektūru

Publicēts: 11. gada 2023. jūlijā, plkst. 7:19 Atjaunināts: 11. gada 2023. jūlijā, plkst. 7:23

Rediģēts un pārbaudīts ar faktiem: 11. gada 2023. jūlijs, plkst. 7:19

Īsumā

Nopludinātā informācija par GPT-4 ir izraisījis sajūsmu AI kopienā. Tā parametri ir vairāk nekā 10 reizes lielāki par tā priekšgājēja parametriem, GPT-3, GPT-4 tiek lēsts, ka tajā ir 1.8 triljoni parametru, kas sadalīti 120 slāņos.

OpenAI ieviesa ekspertu sajaukuma (EM) modeli, izmantojot 16 ekspertus ar 111 miljardiem parametru daudzslāņu perceptroniem (MLP). Modeļa efektīvais secinājumu process izmanto 280 miljardus parametru un 560 TFLOP uz priekšu, parādot OpenAIapņemšanos palielināt efektivitāti un izmaksu lietderību. Modeļa apmācības datu kopā ir 13 triljoni marķieru ar precizējumu no 8k līdz 32k.

OpenAI gadā izmantoja paralēlismu GPT-4 lai pilnībā izmantotu savu A100 GPU potenciālu, izmantojot 8 virzienu tenzoru paralēlismu un 15 virzienu konveijera paralēlismu. Apmācības process bija apjomīgs un resursietilpīgs, un izmaksas bija no 32 miljoniem līdz 63 miljoniem dolāru.

GPT-4Secinājumu izmaksas ir aptuveni trīs reizes lielākas nekā tā priekšgājējam, taču tajā ir iekļauta arī vairāku vaicājumu uzmanība, nepārtraukta komplektēšana un spekulatīva dekodēšana. Secinājumu arhitektūra darbojas 128 GPU klasterī, kas ir sadalīti vairākos datu centros.

Nesenā apkārtējo detaļu noplūde GPT-4 ir raidījis triecienviļņus caur AI kopienu. Nopludinātā informācija, kas iegūta no neatklāta avota, sniedz ieskatu šī revolucionārā modeļa bijību iedvesmojošajās spējās un bezprecedenta mērogā. Mēs noskaidrosim faktus un atklāsim galvenos aspektus GPT-4 īsts tehnoloģiju brīnums.

GPT-4Nopludinātās detaļas izgaismo tās milzīgo mērogu un iespaidīgo arhitektūru — Kredīts: Metaverse Post (mpost.io)

GPT-4's Massive Parameters Count

Viena no visspilgtākajām noplūdes atklāsmēm ir tās milzīgais apjoms GPT-4. Tas lepojas ar pārsteidzošu izmēru, vairāk nekā 10 reizes pārsniedzot tā priekšgājēja parametrus, GPT-3. Tiek lēsts, ka to kopējais skaits ir aptuveni 1.8 triljoni parametru sadalīts iespaidīgos 120 slāņos. Šis ievērojamais mēroga pieaugums neapšaubāmi veicina GPT-4uzlabotās iespējas un potenciāls revolucionāram progresam.

Ekspertu modelis (EM)

Lai nodrošinātu saprātīgas izmaksas, vienlaikus saglabājot izcilu veiktspēju, OpenAI gadā ieviesa ekspertu maisījuma (EM) modeli GPT-4. Modelī izmantojot 16 ekspertus, no kuriem katrs sastāv no aptuveni 111 miljardiem daudzslāņu perceptronu (MLP) parametru, OpenAI efektīvi optimizēta resursu sadale. Jāatzīmē, ka katras pārejas laikā tiek novirzīti tikai divi eksperti, samazinot skaitļošanas prasības, neapdraudot rezultātus. Šī novatoriskā pieeja parāda OpenAIapņemšanos palielināt savu modeļu efektivitāti un izmaksu lietderību.

Ļoti interesanta un detalizēta noplūde GPT-4 arhitektūra, ar izcilu pamatojumu analīzi un tās sekām – by @dylan522p :https://t.co/eHE7VlGY5V

Kopsavilkums bez maksas ir pieejams šeit: https://t.co/rLxw5s9ZDt
— Jans P. Harijs (@jphme) Jūlijs 11, 2023

Vienkāršots EM maršrutēšanas algoritms

Lai gan modelī bieži tiek pētīti uzlaboti maršrutēšanas algoritmi, lai atlasītu ekspertus, kas apstrādātu katru marķieri, OpenAIs pieeja pašreizējā GPT-4 Tiek ziņots, ka modelis ir vienkāršāks. Tiek uzskatīts, ka AI izmantotais maršrutēšanas algoritms ir salīdzinoši vienkāršs, bet tomēr efektīvs. Aptuveni 55 miljardi koplietojamo parametru uzmanības nodrošināšanai veicina efektīvu marķieru izplatīšanu atbilstošajiem ekspertiem modeļa ietvaros.

Efektīvs secinājums

GPT-4secinājumu process parāda tā efektivitāti un skaitļošanas spējas. Katra pāreja uz priekšu, kas paredzēta viena marķiera ģenerēšanai, izmanto aptuveni 280 miljardus parametru un 560 TFLOP (tera peldošā komata darbības sekundē). Tas ir pilnīgā pretstatā milzīgajam mērogam GPT-4, ar tā 1.8 triljoniem parametru un 3,700 TFLOP uz priekšu tīri blīvā modelī. Izceļ resursu efektīva izmantošana OpenAIuzņēmuma centību sasniegt optimālu veiktspēju bez pārmērīgām skaitļošanas prasībām.

Plaša apmācības datu kopa

GPT-4 ir apmācīts par kolosālu datu kopu, kas ietver aptuveni 13 triljonus marķieru. Ir svarīgi atzīmēt, ka šie marķieri ietver gan unikālus marķierus, gan marķierus, kas atspoguļo laikmeta numurus. The apmācības process ietver divus laikmetus teksta datiem un četrus laikmetus koda datiem. OpenAI izmantoja miljoniem rindu instrukciju precizējošo datu, kas iegūti no ScaleAI un iekšēji, lai uzlabotu modeļa veiktspēju.

Pirmsapmācības posms GPT-4 izmantoja 8k konteksta garumu. Pēc tam modelim tika veikta precizēšana, kā rezultātā tika iegūta 32k versija. Šī virzība balstās uz pirmsapmācības posmu, uzlabojot modeļa iespējas un pielāgojot to konkrētiem uzdevumiem.

Mērogošana ar GPU, izmantojot paralēlismu

OpenAI izmantoja paralēlisma spēku GPT-4 lai pilnībā izmantotu savu A100 GPU potenciālu. Viņi izmantoja 8 virzienu tensoru paralēlismu, kas maksimāli palielina paralēlo apstrādi, jo tas ir NVLink ierobežojums. Turklāt, lai vēl vairāk uzlabotu veiktspēju, tika izmantots 15 virzienu cauruļvadu paralēlisms. Lai gan, iespējams, tika izmantotas īpašas metodes, piemēram, ZeRo Stage 1, precīza metodoloģija joprojām nav atklāta.

Apmācību izmaksas un izmantošanas problēmas

treniņš GPT-4 bija plašs un resursietilpīgs pasākums. OpenAI 25,000–100 dienu laikā ir piešķirti aptuveni 90 100 A32 GPU, kas darbojas ar aptuveni 36–1 % MFU (visbiežāk izmanto). Apmācības procesā radās daudzas neveiksmes, kuru dēļ bija nepieciešams bieži restartēt no kontrolpunktiem. Ja tiek lēsts 100 USD par AXNUMX stundu, apmācību izmaksas šim skrējienam vien būtu aptuveni 63 miljoni USD.

Kompromisi ekspertu kombinācijā

Ekspertu modeļa ieviešana rada vairākus kompromisus. Gadījumā, ja GPT-4, OpenAI lielāka skaita vietā izvēlējās 16 ekspertus. Šis lēmums atspoguļo līdzsvaru starp izcilu zaudējumu rezultātu sasniegšanu un vispārināmības nodrošināšanu dažādos uzdevumos. Vairāk ekspertu var radīt problēmas uzdevumu vispārināšanas un konverģences ziņā. OpenAIizvēle vingrot piesardzība ekspertā izvēle atbilst viņu apņemšanās nodrošināt uzticamu un stabilu veiktspēju.

Secinājumu izmaksas

Salīdzinot ar tā priekšgājēju, 175 miljardu parametru Davinci modeli, GPT-4secinājumu izmaksas ir aptuveni trīs reizes lielākas. Šo neatbilstību var saistīt ar vairākiem faktoriem, tostarp lielākām kopām, kas nepieciešamas atbalstam GPT-4 un zemākā izmantošana, kas panākta secinājumu veikšanas laikā. Aplēses liecina, ka aptuvenās izmaksas ir USD 0.0049 centi par 1,000 marķieriem 128 A100 GPU un USD 0.0021 centi par 1,000 marķieriem 128 H100 GPU. GPT-4 ar 8k. Šie skaitļi paredz pienācīgu izmantošanu un lielu partiju lielumu, kas ir būtiski apsvērumi izmaksu optimizēšanai.

Vairāku vaicājumu uzmanība

OpenAI izmanto vairāku vaicājumu uzmanību (MQA), kas ir šajā jomā plaši izmantota tehnika GPT-4 arī. Ieviešot MQA, modelim ir nepieciešama tikai viena galviņa, ievērojami samazinot atslēgas vērtību kešatmiņai (KV cache) nepieciešamo atmiņas ietilpību. Neskatoties uz šo optimizāciju, jāatzīmē, ka 32k partija GPT-4 nevar ievietot 40 GB A100 GPU, un 8k ierobežo maksimālais partijas lielums.

Nepārtraukta sūtīšana

Lai panāktu līdzsvaru starp latentumu un secinājumu izmaksām, OpenAI ietver gan mainīgus partijas izmērus, gan nepārtrauktu partiju ievadīšanu GPT-4. Šī adaptīvā pieeja nodrošina elastīgu un efektīvu apstrādi, optimizējot resursu izmantošanu un samazinot skaitļošanas izmaksas.

GPT-4 ievieš atsevišķu redzes kodētāju līdzās teksta kodētājam, kas nodrošina savstarpēju uzmanību starp abiem. Šī arhitektūra, kas atgādina Flamingo, pievieno papildu parametrus jau tā iespaidīgajam 1.8 triljonu parametru skaitam. GPT-4. Redzes modelim tiek veikta atsevišķa precizēšana, izmantojot aptuveni 2 triljonus marķieru pēc tikai teksta pirmsapmācības fāzes. Šī redzes spēja dod spēku autonomie aģenti lai lasītu tīmekļa lapas, pārrakstītu attēlus un interpretētu video saturu — tas ir nenovērtējams ieguvums multivides datu laikmetā.

Spekulatīvā dekodēšana

Interesants aspekts GPT-4Secinājumu stratēģija ir iespējama spekulatīvas dekodēšanas izmantošana. Šī pieeja ietver mazāku, ātrāku izmantošanu modelis lai iepriekš ģenerētu prognozes vairākiem marķieriem. Šie paredzamie marķieri pēc tam tiek ievadīti lielākā “orākula” modelī kā viena partija. Ja mazāks modeļa prognozes saskaņot ar lielāka modeļa vienošanos, vairākus marķierus var atšifrēt kopā. Tomēr, ja lielākais modelis noraida uzmetuma modeļa paredzētos marķierus, pārējā partijas daļa tiek atmesta, un secinājumi turpinās tikai ar lielāko modeli. Šī pieeja nodrošina efektīvu dekodēšanu, vienlaikus potenciāli pieņemot zemākas varbūtības secības. Ir vērts atzīmēt, ka šī spekulācija šobrīd nav pārbaudīta.

Secinājumu arhitektūra

GPT-4secinājumu process darbojas 128 GPU grupā, kas ir sadalīti vairākos datu centros dažādās vietās. Šajā infrastruktūrā tiek izmantots 8 virzienu tenzoru paralēlisms un 16 virzienu konveijera paralēlisms, lai palielinātu skaitļošanas efektivitāti. Katrs mezgls, kas sastāv no 8 GPU, uzņem aptuveni 130 miljardus parametru. Modeļa izmērs ir 120 slāņi, GPT-4 var ietilpt 15 dažādos mezglos, iespējams, pirmajā mezglā ir mazāk slāņu, jo ir jāaprēķina iegulumi. Šīs arhitektūras izvēles atvieglo augstas veiktspējas secinājumus, demonstrējot OpenAIapņemšanos paplašināt skaitļošanas efektivitātes robežas.

Datu kopas lielums un sastāvs

GPT-4 tika apmācīts, izmantojot iespaidīgus 13 triljonus žetonus, nodrošinot to ar plašu teksta korpusu, no kura mācīties. Tomēr ne visus marķierus var ņemt vērā apmācībā izmantotajās zināmajās datu kopās. Lai gan datu kopas, piemēram, CommonCrawl un RefinedWeb, nodrošina ievērojamu daļu no apmācību dati, joprojām ir daļa no žetoniem, kas nav reģistrēti, ko bieži dēvē par “slepenajiem” datiem.

Baumas un spekulācijas

Ir parādījušās spekulācijas par šo neizpaužamo datu izcelsmi. Vienas baumas liecina, ka tajā ir ietverts saturs no tādām populārām platformām kā Twitter, Reddit un YouTube, uzsverot lietotāju radītā satura iespējamo ietekmi veidošanā. GPT-4zināšanu bāzi. Turklāt pastāv minējumi par tādu plašu kolekciju iekļaušanu kā LibGen, miljoniem grāmatu krātuve, un Sci-Hub, platforma, kas nodrošina piekļuvi daudziem zinātniskiem rakstiem. Priekšstats, ka GPT-4 tika apmācīts visā GitHub, ir izplatījies arī AI entuziastu vidū.

Reportiera viedoklis

Lai gan ir daudz baumu, ir svarīgi šīm baumām pieiet piesardzīgi. Apmācība par GPT-4 iespējams, ir guvuši lielu labumu no īpašas datu kopas, ko veido koledžas mācību grāmatas. Šo datu kopu, kas aptver plašu kursu un priekšmetu klāstu, varēja rūpīgi apkopot ar rokām. Koledžas mācību grāmatas nodrošina strukturētu un visaptverošu zināšanu bāzi, ko var veiksmīgi izmantot, lai apmācītu valodas modeli un kuras ir viegli konvertējamas teksta failos. Šādas datu kopas iekļaušana varētu radīt iespaidu, ka GPT-4 ir zinošs dažādās jomās.

Aizraušanās ar GPT-4's Zināšanas

Viens intriģējošs aspekts GPT-4Apmācība ir tā spēja demonstrēt zināšanas par konkrētām grāmatām un pat atsaukt unikālus identifikatorus no tādām platformām kā Project Euler. Pētnieki ir mēģinājuši izvilkt iegaumētas grāmatu sadaļas no GPT-4 lai gūtu ieskatu tās apmācībā, vēl vairāk rosinot zinātkāri par modeļa iekšējo darbību. Šie atklājumi izceļ apbrīnojamo spēju GPT-4 lai saglabātu informāciju un uzsvērtu liela mēroga valodu modeļu iespaidīgās iespējas.

Daudzpusība GPT-4

Plašs tēmu un jomu spektrs, kas GPT-4 var šķietami sadarboties ar demonstrē savu daudzpusību. Neatkarīgi no tā, vai tā ir atbildes uz sarežģītiem jautājumiem datorzinātnēs vai iedziļināšanās filozofiskās debatēs, GPT-4Apmācība par daudzveidīgu datu kopu nodrošina to, lai tas varētu mijiedarboties ar lietotājiem no dažādām jomām. Šī daudzpusība izriet no tā, ka tā ir pakļauta plašam teksta resursu klāstam, padarot to par vērtīgu rīku plašam lietotāju lokam.

Lasiet vairāk par AI:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs