Hulyo 11, 2023

GPT-4Ang Mga Naka-leak na Detalye ay Nagbigay-liwanag sa Napakalaking Scale at Kahanga-hangang Arkitektura nito

Na-publish: Hulyo 11, 2023 sa 7:19 am Na-update: Hulyo 11, 2023 sa 7:23 am

Na-edit at na-fact check: Hulyo 11, 2023 nang 7:19 am

Sa madaling sabi

Ang nag-leak na impormasyon tungkol sa GPT-4 ay nagdulot ng kaguluhan sa komunidad ng AI. Na may higit sa 10 beses ang mga parameter ng hinalinhan nito, GPT-3, GPT-4 ay tinatayang may 1.8 trilyong parameter na ipinamamahagi sa 120 layer.

OpenAI nagpatupad ng pinaghalong modelo ng mga eksperto (MoE), na gumagamit ng 16 na eksperto na may 111 bilyong parameter para sa multi-layer perceptrons (MLP). Ang mahusay na proseso ng inference ng modelo ay gumagamit ng 280 bilyong parameter at 560 TFLOP bawat forward pass, na nagpapakita ng OpenAIpangako ni sa pag-maximize ng kahusayan at pagiging epektibo sa gastos. Kasama sa dataset ng pagsasanay ng modelo ang 13 trilyong token, na may fine-tuning mula 8k hanggang 32k.

OpenAI ginamit ang paralelismo sa GPT-4 para magamit ang buong potensyal ng kanilang mga A100 GPU, gamit ang 8-way tensor parallelism at 15-way pipeline parallelism. Ang proseso ng pagsasanay ay malawak at masinsinang mapagkukunan, na may mga gastos mula $32 milyon hanggang $63 milyon.

GPT-4Ang halaga ng hinuha ni ay humigit-kumulang tatlong beses na mas mataas kaysa sa hinalinhan nito, ngunit isinasama rin nito ang pansin sa maraming query, tuluy-tuloy na pag-batch, at speculative decoding. Gumagana ang inference architecture sa isang kumpol ng 128 GPU, na ipinamamahagi sa maraming data center.

Ang kamakailang pagtagas ng mga detalye sa paligid GPT-4 ay nagpadala ng mga shockwaves sa pamamagitan ng AI community. Ang naka-leak na impormasyon, na nakuha mula sa isang hindi natukoy na pinagmulan, ay nagbibigay ng isang sulyap sa kahanga-hangang mga kakayahan at hindi pa nagagawang sukat ng groundbreaking na modelong ito. Susuriin namin ang mga katotohanan at ilalahad ang mga pangunahing aspeto na gumagawa GPT-4 isang tunay na teknolohikal na kababalaghan.

GPT-4Ang Mga Naka-leak na Detalye ay Nagbigay-liwanag sa Napakalaking Scale at Kahanga-hangang Arkitektura nito — Pinasasalamatan: Metaverse Post (mpost.io)

GPT-4Bilang ng Napakalaking Parameter

Ang isa sa mga pinaka-kapansin-pansing paghahayag mula sa pagtagas ay ang napakalaki ng GPT-4. Ipinagmamalaki nito ang isang kamangha-manghang laki, na may higit sa 10 beses ang mga parameter ng hinalinhan nito, GPT-3. Ito ay tinatantya na may nakakagulat na kabuuang humigit-kumulang 1.8 trilyong mga parameter ipinamahagi sa isang kahanga-hangang 120 layer. Ang malaking pagtaas na ito sa sukat ay walang alinlangan na nag-aambag sa GPT-4pinahusay na mga kakayahan at potensyal para sa groundbreaking advancements.

Mixture of Experts Model (MoE)

Upang matiyak ang mga makatwirang gastos habang pinapanatili ang pambihirang pagganap, OpenAI nagpatupad ng pinaghalong modelo ng mga eksperto (MoE) sa GPT-4. Sa pamamagitan ng paggamit ng 16 na eksperto sa loob ng modelo, bawat isa ay binubuo ng humigit-kumulang 111 bilyong parameter para sa multi-layer perceptrons (MLP), OpenAI epektibong na-optimize ang paglalaan ng mapagkukunan. Kapansin-pansin, sa bawat pagpasa ng pasulong, dalawang eksperto lamang ang naruruta, na pinapaliit ang mga kinakailangan sa pag-compute nang hindi nakompromiso ang mga resulta. Ang makabagong diskarte na ito ay nagpapakita OpenAIAng pangako ni sa pag-maximize ng kahusayan at pagiging epektibo sa gastos sa kanilang mga modelo.

Napaka-interesante at detalyadong pagtagas ng GPT-4 arkitektura, na may mahusay na pagsusuri ng pangangatwiran sa likod nito at ang mga implikasyon nito – sa pamamagitan ng @dylan522p :https://t.co/eHE7VlGY5V

Ang isang hindi naka-paywall na buod ay matatagpuan dito: https://t.co/rLxw5s9ZDt
— Jan P. Harris (@jphme) Hulyo 11, 2023

Pinasimpleng MoE Routing Algorithm

Bagama't madalas na ginagalugad ng modelo ang mga advanced na algorithm sa pagruruta para sa pagpili ng mga eksperto na hahawak sa bawat token, OpenAIdiskarte ni sa kasalukuyang GPT-4 modelo ay naiulat na mas tapat. Ang algorithm ng pagruruta na ginagamit ng AI ay sinasabing medyo simple, ngunit gayunpaman epektibo. Humigit-kumulang 55 bilyong nakabahaging parameter para sa atensyon ay nagpapadali sa mahusay na pamamahagi ng mga token sa mga naaangkop na eksperto sa loob ng modelo.

Mahusay na Hinuha

GPT-4Ang proseso ng hinuha ni ay nagpapakita ng kahusayan at kahusayan nito sa pagkalkula. Ang bawat forward pass, na nakatuon sa pagbuo ng isang token, ay gumagamit ng humigit-kumulang 280 bilyong mga parameter at 560 TFLOP (tera floating-point operations bawat segundo). Ito ay nakatayo sa ganap na kaibahan sa napakalawak na sukat ng GPT-4, na may 1.8 trilyong parameter nito at 3,700 TFLOP bawat forward pass sa isang purong siksik na modelo. Ang mahusay na paggamit ng mga mapagkukunan ay highlight OpenAIDedikasyon ni sa pagkamit ng pinakamainam na pagganap nang walang labis na mga kinakailangan sa computational.

Malawak na Dataset ng Pagsasanay

GPT-4 ay sinanay sa isang napakalaking dataset na binubuo ng humigit-kumulang 13 trilyong token. Mahalagang tandaan na ang mga token na ito ay kinabibilangan ng parehong mga natatanging token at mga token na sumasagot sa mga numero ng panahon. Ang proseso ng pagsasanay may kasamang dalawang panahon para sa text-based na data at apat na epoch para sa code-based na data. OpenAI gumamit ng milyun-milyong hilera ng pagtuturo ng fine-tuning na data na nagmula sa ScaleAI at panloob upang pinuhin ang pagganap ng modelo.

Ang yugto ng pre-training ng GPT-4 gumamit ng 8k na haba ng konteksto. Kasunod nito, ang modelo ay sumailalim sa fine-tuning, na nagresulta sa 32k na bersyon. Ang pag-unlad na ito ay bubuo sa yugto ng pre-training, pagpapahusay sa mga kakayahan ng modelo at pag-aangkop nito sa mga partikular na gawain.

Pag-scale gamit ang mga GPU sa pamamagitan ng Parallelism

OpenAI ginamit ang kapangyarihan ng paralelismo sa GPT-4 upang magamit ang buong potensyal ng kanilang mga A100 GPU. Gumamit sila ng 8-way tensor parallelism, na nag-maximize ng parallel processing, dahil ito ang limitasyon para sa NVLink. Bukod pa rito, ginamit ang 15-way pipeline parallelism upang higit pang mapahusay ang pagganap. Bagama't malamang na ginamit ang mga partikular na diskarte gaya ng ZeRo Stage 1, ang eksaktong pamamaraan ay nananatiling hindi isiniwalat.

Gastos sa Pagsasanay at Mga Hamon sa Paggamit

Pagsasanay GPT-4 ay isang malawak at masinsinang mapagkukunan na pagsisikap. OpenAI naglaan ng humigit-kumulang 25,000 A100 GPU sa loob ng 90 hanggang 100 araw, na tumatakbo sa rate ng paggamit na humigit-kumulang 32% hanggang 36% MFU (pinaka madalas na ginagamit). Ang proseso ng pagsasanay ay nagkaroon ng maraming pagkabigo, na nangangailangan ng madalas na pag-restart mula sa mga checkpoint. Kung tinatantya sa $1 kada A100 oras, ang gastos sa pagsasanay para sa pagtakbo na ito lamang ay aabot sa humigit-kumulang $63 milyon.

Tradeoffs sa Mixture ng mga Eksperto

Ang pagpapatupad ng pinaghalong modelo ng mga eksperto ay nagpapakita ng ilang mga tradeoff. Sa kaso ng GPT-4, OpenAI pumili ng 16 na eksperto sa halip na mas mataas na bilang. Ang desisyong ito ay nagpapakita ng balanse sa pagitan ng pagkamit ng higit na mahusay na mga resulta ng pagkawala at pagtiyak ng pagiging pangkalahatan sa iba't ibang mga gawain. Mas maraming eksperto ang maaaring magharap ng mga hamon sa mga tuntunin ng generalization at convergence ng gawain. OpenAIang pagpipiliang mag-ehersisyo pag-iingat sa eksperto ang pagpili ay naaayon sa kanilang pangako sa maaasahan at matatag na pagganap.

Halaga ng Hinuha

Kung ikukumpara sa hinalinhan nito, ang 175 bilyong parameter na modelo ng Davinci, GPT-4Ang halaga ng hinuha ni ay humigit-kumulang tatlong beses na mas mataas. Ang pagkakaibang ito ay maaaring maiugnay sa ilang mga kadahilanan, kabilang ang mas malalaking kumpol na kinakailangan upang suportahan GPT-4 at ang mas mababang paggamit na nakamit sa panahon ng hinuha. Isinasaad ng mga pagtatantya ang tinatayang halaga na $0.0049 cents bawat 1,000 token para sa 128 A100 GPU, at $0.0021 cents bawat 1,000 token para sa 128 H100 GPU kapag hinuhulaan GPT-4 may 8k. Ipinapalagay ng mga numerong ito ang disenteng paggamit at mataas na laki ng batch, mahahalagang pagsasaalang-alang para sa pag-optimize ng gastos.

Multi-Query Attention

OpenAI gumagamit ng multi-query attention (MQA), isang pamamaraan na malawakang ginagamit sa larangan, sa GPT-4 din. Sa pamamagitan ng pagpapatupad ng MQA, ang modelo ay nangangailangan lamang ng isang ulo, na makabuluhang binabawasan ang kapasidad ng memorya na kinakailangan para sa key-value cache (KV cache). Sa kabila ng pag-optimize na ito, dapat tandaan na ang 32k batch GPT-4 hindi maaaring tanggapin sa 40GB A100 GPU, at ang 8k ay nalilimitahan ng maximum na laki ng batch.

Tuloy-tuloy na Batching

Upang magkaroon ng balanse sa pagitan ng latency at mga gastos sa hinuha, OpenAI isinasama ang parehong variable na laki ng batch at tuluy-tuloy na batching in GPT-4. Ang adaptive na diskarte na ito ay nagbibigay-daan para sa flexible at mahusay na pagproseso, pag-optimize ng paggamit ng mapagkukunan at pagbabawas ng computational overhead.

GPT-4 nagpapakilala ng hiwalay na vision encoder sa tabi ng text encoder, na nagtatampok ng cross-attention sa pagitan ng dalawa. Ang arkitektura na ito, na nakapagpapaalaala sa Flamingo, ay nagdaragdag ng mga karagdagang parameter sa kahanga-hangang 1.8 trilyong bilang ng parameter ng GPT-4. Ang vision model ay sumasailalim sa hiwalay na fine-tuning gamit ang humigit-kumulang 2 trilyong token kasunod ng text-only na yugto ng pre-training. Ang kakayahang pangitain na ito ay nagpapalakas mga autonomous na ahente para magbasa ng mga web page, mag-transcribe ng mga larawan, at magbigay-kahulugan sa nilalamang video—isang napakahalagang asset sa edad ng multimedia data.

Speculative Decoding

Ang isang kagiliw-giliw na aspeto ng GPT-4Ang istratehiya ng hinuha ay ang posibleng paggamit ng speculative decoding. Kasama sa diskarteng ito ang paggamit ng mas maliit, mas mabilis modelo upang makabuo ng mga hula para sa maramihang mga token nang maaga. Ang mga hinulaang token na ito ay ipapakain sa isang mas malaking modelong "oracle" bilang isang batch. Kung mas maliit mga hula ng modelo iayon sa kasunduan ng mas malaking modelo, maraming mga token ang maaaring i-decode nang magkasama. Gayunpaman, kung tatanggihan ng mas malaking modelo ang mga token na hinulaang ng draft na modelo, ang natitirang bahagi ng batch ay itatapon, at ang hinuha ay magpapatuloy lamang sa mas malaking modelo. Ang diskarte na ito ay nagbibigay-daan para sa mahusay na pag-decode habang potensyal na tumatanggap ng mas mababang probability sequence. Kapansin-pansin na ang haka-haka na ito ay nananatiling hindi na-verify sa ngayon.

Hinuha Arkitektura

GPT-4Gumagana ang proseso ng hinuha ni sa isang kumpol ng 128 GPU, na ipinamamahagi sa maraming data center sa iba't ibang lokasyon. Ang imprastraktura na ito ay gumagamit ng 8-way tensor parallelism at 16-way na pipeline parallelism upang ma-maximize ang computational efficiency. Ang bawat node, na binubuo ng 8 GPU, ay tumatanggap ng humigit-kumulang 130 bilyong parameter. Sa laki ng modelong 120 layer, GPT-4 maaaring magkasya sa loob ng 15 iba't ibang mga node, posibleng may mas kaunting mga layer sa unang node dahil sa pangangailangang kalkulahin ang mga pag-embed. Ang mga pagpipiliang arkitektura na ito ay nagpapadali sa inference na may mataas na pagganap, na nagpapakita OpenAIAng pangako ni na itulak ang mga hangganan ng kahusayan sa computational.

Laki at Komposisyon ng Dataset

GPT-4 ay sinanay sa isang kahanga-hangang 13 trilyong token, na nagbibigay dito ng malawak na corpus ng teksto upang matutunan. Gayunpaman, hindi lahat ng mga token ay maaaring isaalang-alang ng mga kilalang dataset na ginamit sa panahon ng pagsasanay. Habang ang mga dataset tulad ng CommonCrawl at RefinedWeb ay nag-aambag ng malaking bahagi ng data ng pagsasanay, may nananatiling bahagi ng mga token na hindi natukoy, kadalasang tinutukoy bilang "lihim" na data.

Mga Alingawngaw at Ispekulasyon

Lumitaw ang mga haka-haka tungkol sa pinagmulan ng hindi nabunyag na data na ito. Iminumungkahi ng isang bulung-bulungan na kabilang dito ang nilalaman mula sa mga sikat na platform gaya ng Twitter, Reddit, at YouTube, na nagha-highlight sa potensyal na impluwensya ng content na binuo ng user sa paghubog. GPT-4base ng kaalaman ni. Bukod pa rito, may mga haka-haka na nakapalibot sa pagsasama ng mga malalawak na koleksyon tulad ng LibGen, isang repositoryo ng milyun-milyong aklat, at Sci-Hub, isang platform na nagbibigay ng access sa maraming mga siyentipikong papel. Ang paniwala na GPT-4 ay sinanay sa kabuuan ng GitHub ay kumalat din sa mga mahilig sa AI.

Ang Opinyon ng Reporter

Bagama't maraming tsismis, mahalagang lapitan ang mga tsismis na ito nang may pag-iingat. Ang pagsasanay ng GPT-4 maaaring nakinabang nang husto mula sa isang espesyal na dataset na binubuo ng mga aklat-aralin sa kolehiyo. Ang dataset na ito, na sumasaklaw sa malawak na hanay ng mga kurso at paksa, ay maaaring masusing binuo sa pamamagitan ng kamay. Ang mga aklat-aralin sa kolehiyo ay nagbibigay ng isang istraktura at komprehensibong base ng kaalaman na maaaring matagumpay na magamit upang sanayin ang isang modelo ng wika at madaling ma-convert sa mga text file. Ang pagsasama ng naturang dataset ay maaaring magbigay ng impresyon na GPT-4 ay may kaalaman sa iba't ibang larangan.

Ang Pagkahumaling kay GPT-4Kaalaman ni

Isang nakakaintriga na aspeto ng GPT-4Ang pagsasanay ni ay ang kakayahang magpakita ng pamilyar sa mga partikular na aklat at kahit na mag-recall ng mga natatanging identifier mula sa mga platform tulad ng Project Euler. Sinubukan ng mga mananaliksik na kunin ang mga kabisadong seksyon ng mga libro mula sa GPT-4 upang makakuha ng mga insight sa pagsasanay nito, na lalong nagpapasigla sa pag-usisa tungkol sa mga panloob na gawain ng modelo. Itinatampok ng mga pagtuklas na ito ang kahanga-hangang kapasidad ng GPT-4 upang mapanatili ang impormasyon at bigyang-diin ang mga kahanga-hangang kakayahan ng malalaking modelo ng wika.

Ang kagalingan sa maraming bagay ng GPT-4

Ang malawak na spectrum ng mga paksa at larangan na GPT-4 maaaring tila nakikipag-ugnayan sa mga showcases nito versatility. Maging ito man ay pagsagot sa mga kumplikadong tanong sa computer science o pagsaliksik sa mga pilosopikal na debate, GPT-4Ang pagsasanay ni sa isang magkakaibang dataset ay nagbibigay nito upang makipag-ugnayan sa mga user mula sa iba't ibang mga domain. Ang versatility na ito ay nagmumula sa pagkakalantad nito sa isang malawak na hanay ng mga textual na mapagkukunan, na ginagawa itong isang mahalagang tool para sa isang malawak na hanay ng mga user.

Magbasa pa tungkol sa AI:

Tags:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.

Mas marami pang artikulo

Damir Yalalov