Heinäkuu 11, 2023

GPT-4Vuotaneet yksityiskohdat valaisevat sen massiivista mittakaavaa ja vaikuttavaa arkkitehtuuria

Julkaistu: 11. heinäkuuta 2023 klo 7 Päivitetty: 19. heinäkuuta 11 klo 2023

Muokattu ja faktat tarkistettu: 11 klo 2023

Lyhyesti

Vuotanut tieto aiheesta GPT-4 on herättänyt jännitystä tekoälyyhteisössä. Yli 10 kertaa edeltäjäänsä verrattuna, GPT-3, GPT-4 Arvioiden mukaan 1.8 biljoonaa parametria on jaettu 120 kerrokseen.

OpenAI otti käyttöön asiantuntijoiden yhdistelmämallin (MoE), jossa hyödynnettiin 16 asiantuntijaa 111 miljardilla parametrilla monikerroksisille perceptroneille (MLP). Mallin tehokas päättelyprosessi käyttää 280 miljardia parametria ja 560 TFLOP:a eteenpäin kulkua kohti, mikä osoittaa OpenAIon sitoutunut maksimoimaan tehokkuuden ja kustannustehokkuuden. Mallin harjoitustietojoukko sisältää 13 biljoonaa tokenia, joiden hienosäätö on 8 32:sta XNUMX XNUMX:een.

OpenAI käytti rinnakkaisuutta GPT-4 hyödyntääkseen A100-grafiikkasuorittimiensa täyden potentiaalin käyttämällä 8-suuntaista tensori- ja 15-suuntaista putkilinjan rinnakkaisuutta. Koulutusprosessi oli laaja ja resurssiintensiivinen, ja sen kustannukset vaihtelivat 32–63 miljoonasta dollarista.

GPT-4Päättelykustannukset ovat noin kolme kertaa korkeammat kuin edeltäjänsä, mutta se sisältää myös usean kyselyn huomion, jatkuvan eräajon ja spekulatiivisen dekoodauksen. Päätelmäarkkitehtuuri toimii 128 GPU:n klusterissa, jotka on jaettu useisiin tietokeskuksiin.

Viimeaikainen yksityiskohtien vuoto ympärillä GPT-4 on lähettänyt shokkiaaltoja tekoälyyhteisön läpi. Julkistamattomasta lähteestä saadut vuotaneet tiedot tarjoavat kurkistuksen tämän uraauurtavan mallin kunnioitusta herättäviin ominaisuuksiin ja ennennäkemättömään mittakaavaan. Selvitämme tosiasiat ja paljastamme tärkeimmät tekijät GPT-4 todellinen teknologian ihme.

GPT-4Vuotaneet yksityiskohdat valaisevat sen massiivista mittakaavaa ja vaikuttavaa arkkitehtuuria — Pistetilanne: Metaverse Post (mpost.io)

GPT-4Massive Parameters Count

Yksi silmiinpistävimmistä vuodon paljastuksista on sen laajuus GPT-4. Siinä on hämmästyttävä koko, yli 10 kertaa edeltäjänsä parametrit, GPT-3. Sen kokonaismäärän arvioidaan olevan huikea noin 1.8 biljoonaa parametria jaettu vaikuttavaan 120 kerrokseen. Tämä mittakaavan merkittävä lisäys epäilemättä myötävaikuttaa siihen GPT-4parannetut ominaisuudet ja potentiaalia uraauurtaviin edistysaskeliin.

Mixture of Experts -malli (MoE)

Varmistaaksesi kohtuulliset kustannukset samalla kun säilytät poikkeuksellisen suorituskyvyn, OpenAI otettiin käyttöön asiantuntijoiden yhdistelmämalli (MoE). GPT-4. Hyödyntämällä mallissa 16 asiantuntijaa, joista jokainen koostuu noin 111 miljardista monikerroksisten perceptronien (MLP) parametreista, OpenAI tehokkaasti optimoitu resurssien allokointi. On huomattava, että jokaisen eteenpäinsiirron aikana vain kaksi asiantuntijaa reititetään, mikä minimoi laskentavaatimukset tinkimättä tuloksista. Tämä innovatiivinen lähestymistapa osoittaa OpenAIon sitoutunut maksimoimaan malliensa tehokkuuden ja kustannustehokkuuden.

Erittäin mielenkiintoinen ja yksityiskohtainen vuoto GPT-4 arkkitehtuuri, jossa on erinomainen analyysi sen taustalla olevista perusteluista ja sen seurauksista – by @dylan522p :https://t.co/eHE7VlGY5V

Maksuton yhteenveto löytyy täältä: https://t.co/rLxw5s9ZDt
— Jan P. Harry (@jphme) Heinäkuu 11, 2023

Yksinkertaistettu MoE-reititysalgoritmi

Vaikka malli tutkii usein kehittyneitä reititysalgoritmeja asiantuntijoiden valitsemiseksi kutakin merkkiä käsittelemään, OpenAIn lähestymistapa nykyisessä GPT-4 malli on kuulemma yksinkertaisempi. Tekoälyn käyttämän reititysalgoritmin väitetään olevan suhteellisen yksinkertainen, mutta silti tehokas. Noin 55 miljardia jaettua huomioparametria helpottaa tokenien tehokasta jakamista asianmukaisille asiantuntijoille mallin sisällä.

Tehokas johtopäätös

GPT-4Päättelyprosessi osoittaa sen tehokkuuden ja laskentakyvyn. Jokainen yhden merkin luomiseen omistettu eteenpäinkulku käyttää noin 280 miljardia parametria ja 560 TFLOP:a (tera liukulukuoperaatioita sekunnissa). Tämä on jyrkässä ristiriidassa sen valtavan mittakaavan kanssa GPT-4, jossa on 1.8 biljoonaa parametria ja 3,700 XNUMX TFLOP:a eteenpäin kulkua kohti puhtaasti tiheässä mallissa. Tehokas resurssien käyttö korostaa OpenAIYrityksen omistautuminen optimaalisen suorituskyvyn saavuttamiseen ilman liiallisia laskentavaatimuksia.

Laaja koulutustietokanta

GPT-4 on koulutettu valtavaan tietoaineistoon, joka sisältää noin 13 biljoonaa tokenia. On tärkeää huomata, että nämä tunnukset sisältävät sekä yksilöllisiä tunnuksia että aikakausinumeroita vastaavia tokeneja. The koulutusprosessi sisältää kaksi aikakautta tekstipohjaiselle tiedolle ja neljä aikakautta koodipohjaiselle datalle. OpenAI hyödynsi miljoonia rivejä ScaleAI:sta peräisin olevia ja sisäisiä ohjeita hienosäätödataa parantaakseen mallin suorituskykyä.

Esiharjoitteluvaihe GPT-4 käytti 8k kontekstin pituutta. Myöhemmin mallia hienosäädettiin, mikä johti 32k-versioon. Tämä eteneminen perustuu esikoulutusvaiheeseen, mikä parantaa mallin ominaisuuksia ja räätälöidä sen tiettyihin tehtäviin.

Skaalaus GPU:illa rinnakkaisuuden kautta

OpenAI valjastivat rinnakkaisuuden voiman GPT-4 hyödyntääkseen A100-grafiikkasuorittimiensa täyden potentiaalin. He käyttivät 8-suuntaista tensorin rinnakkaisuutta, mikä maksimoi rinnakkaiskäsittelyn, koska se on NVLinkin raja. Lisäksi 15-suuntaista putkilinjan rinnakkaisuutta käytettiin tehostamaan entisestään. Vaikka tiettyjä tekniikoita, kuten ZeRo Stage 1, käytettiin todennäköisesti, tarkkaa menetelmää ei julkisteta.

Koulutuskustannukset ja käyttöhaasteet

koulutus GPT-4 oli laaja ja resurssiintensiivinen hanke. OpenAI allokoi noin 25,000 100 A90-grafiikkasuoritinta 100–32 päivän aikana, ja ne toimivat noin 36–1 prosentin MFU:n käyttöasteella (useimmin käytetty). Harjoitteluprosessissa ilmeni lukuisia epäonnistumisia, mikä johti toistuviin uudelleenkäynnistyksiin tarkistuspisteistä. Jos sen arvioidaan olevan 100 dollari AXNUMX tuntia kohden, koulutuskustannukset Pelkästään tämä ajo olisi noin 63 miljoonaa dollaria.

Kompromissit asiantuntijoiden yhdistelmässä

Asiantuntijoiden yhdistelmämallin toteuttaminen tarjoaa useita kompromisseja. Siinä tapauksessa että GPT-4, OpenAI valitsi 16 asiantuntijaa suuremman määrän sijaan. Tämä päätös kuvastaa tasapainoa ylivoimaisten tappiotulosten saavuttamisen ja eri tehtävien yleistettävyyden varmistamisen välillä. Useammat asiantuntijat voivat esittää haasteita tehtävien yleistämisessä ja lähentymisessä. OpenAIharrastuksen valinta asiantuntijan varovaisuutta Valikoima vastaa heidän sitoutumistaan luotettavaan ja kestävään suorituskykyyn.

Päätelmäkustannukset

Verrattuna edeltäjäänsä, 175 miljardin parametrin Davinci-malliin, GPT-4Päätelmäkustannukset ovat noin kolme kertaa suuremmat. Tämä ero voi johtua useista tekijöistä, mukaan lukien suuremmat tuen edellyttämät klusterit GPT-4 ja päättelyn aikana saavutettu alhaisempi käyttöaste. Arvioiden mukaan hinta on noin 0.0049 dollaria senttiä 1,000 128 merkkiä kohden 100 A0.0021 GPU:lle ja 1,000 dollaria senttiä 128 100 merkkiä kohden XNUMX HXNUMX GPU:lle. GPT-4 8k:n kanssa. Näissä luvuissa oletetaan kunnollista käyttöastetta ja suuria eräkokoja, jotka ovat tärkeitä kustannusten optimoinnin kannalta.

Monen kyselyn huomio

OpenAI hyödyntää monen kyselyn huomiota (MQA), joka on alalla laajalti käytetty tekniikka GPT-4 yhtä hyvin. Toteuttamalla MQA malli vaatii vain yhden pään, mikä vähentää merkittävästi avainarvovälimuistin (KV-välimuistin) tarvitsemaa muistikapasiteettia. Tästä optimoinnista huolimatta on huomattava, että 32k erä GPT-4 ei voida majoittaa 40 Gt:n A100-grafiikkasuorittimiin, ja 8k on rajoitettu erän enimmäiskoon mukaan.

Jatkuva eräajo

Tasapainon saavuttamiseksi viiveen ja päättelykustannusten välillä OpenAI sisältää sekä vaihtelevia eräkokoja että jatkuvaa annostelua GPT-4. Tämä mukautuva lähestymistapa mahdollistaa joustavan ja tehokkaan käsittelyn, optimoi resurssien käytön ja vähentää laskennallisia kustannuksia.

GPT-4 tuo tekstienkooderin rinnalle erillisen visiokooderin, joka huomioi näiden kahden välillä. Tämä Flamingoa muistuttava arkkitehtuuri lisää lisäparametreja jo ennestään vaikuttavaan 1.8 biljoonaan parametrien määrään. GPT-4. Näkömalli käy läpi erillisen hienosäädön käyttämällä noin 2 biljoonaa merkkiä pelkän tekstin esiopetusvaiheen jälkeen. Tämä näkökyky antaa voimaa autonomiset agentit lukea verkkosivuja, litteroida kuvia ja tulkita videosisältöä – korvaamaton voimavara multimediadatan aikakaudella.

Spekulatiivinen dekoodaus

Mielenkiintoinen näkökohta GPT-4Päättelystrategiana on mahdollinen spekulatiivisen dekoodauksen käyttö. Tämä lähestymistapa edellyttää pienemmän, nopeamman tavan käyttämistä malli luodaksesi ennusteita useille tokeneille etukäteen. Nämä ennustetut merkit syötetään sitten suurempaan "oraakkeli"-malliin yhtenä eränä. Jos pienempi mallin ennusteet linjassa suuremman mallin kanssa, useita tokeneita voidaan purkaa yhdessä. Jos suurempi malli kuitenkin hylkää luonnosmallin ennustamat tunnukset, loput erästä hylätään ja päättely jatkuu vain suuremmalla mallilla. Tämä lähestymistapa mahdollistaa tehokkaan dekoodauksen samalla, kun se mahdollisesti hyväksyy pienemmän todennäköisyyden sekvenssit. On syytä huomata, että tämä spekulaatio on toistaiseksi vahvistamaton.

Päätelmäarkkitehtuuri

GPT-4Päättelyprosessi toimii 128 GPU:n klusterissa, jotka on jaettu useisiin datakeskuksiin eri paikoissa. Tämä infrastruktuuri käyttää 8-suuntaista tensori- ja 16-suuntaista putkilinjan rinnakkaisuutta laskennan tehokkuuden maksimoimiseksi. Jokainen solmu, joka sisältää 8 GPU:ta, sisältää noin 130 miljardia parametria. Mallin koko on 120 kerrosta, GPT-4 mahtuu 15 eri solmuun, mahdollisesti vähemmän kerroksia ensimmäisessä solmussa johtuen tarpeesta laskea upotuksia. Nämä arkkitehtoniset valinnat helpottavat korkean suorituskyvyn päättämistä ja osoittavat OpenAIon sitoutunut laskennallisen tehokkuuden rajojen ylittämiseen.

Tietojoukon koko ja koostumus

GPT-4 Koulutettiin vaikuttavalla 13 biljoonalla rahakkeella, mikä tarjosi sille laajan tekstikokonaisuuden, josta oppia. Kaikkia tunnisteita ei kuitenkaan voida ottaa huomioon tunnetuissa koulutuksen aikana käytetyissä tietojoukoissa. Vaikka tietojoukot, kuten CommonCrawl ja RefinedWeb, tuottavat merkittävän osan harjoitustiedot, jäljelle jää osa tunnuksista, joita ei huomioida, ja niitä kutsutaan usein "salaisiksi" tiedoiksi.

Huhuja ja spekulaatioita

Näiden julkistamattomien tietojen alkuperästä on syntynyt spekulaatioita. Yksi huhu viittaa siihen, että se sisältää sisältöä suosituilta alustoilta, kuten Twitter, Reddit ja YouTube, mikä korostaa käyttäjien luoman sisällön mahdollista vaikutusta muotoiluun. GPT-4tietokanta. Lisäksi on olemassa oletuksia laajojen kokoelmien sisällyttämisestä, kuten LibGen, miljoonien kirjojen arkisto, ja Sci-Hub, alusta, joka tarjoaa pääsyn lukuisiin tieteellisiin kirjoituksiin. Ajatus siitä GPT-4 oli koulutettu kokonaisuudessaan GitHub on levinnyt myös tekoälyn harrastajien keskuudessa.

Toimittajan mielipide

Vaikka huhuja on monia, on tärkeää suhtautua näihin huhuihin varoen. Koulutus GPT-4 ovat saaneet hyötyä suuresti korkeakouluoppikirjoista koostuvasta erityisestä tietojoukosta. Tämä tietojoukko, joka kattaa laajan valikoiman kursseja ja aiheita, olisi voitu koota huolella käsin. Yliopiston oppikirjat tarjoavat jäsennellyn ja kattavan tietokannan, jota voidaan menestyksekkäästi käyttää kielimallin kouluttamiseen ja jotka ovat helposti muunnettavissa tekstitiedostoiksi. Tällaisen tietojoukon sisällyttäminen saattaa antaa vaikutelman, että GPT-4 on asiantunteva eri aloilta.

Viehätys kanssa GPT-4n Tieto

Yksi kiehtova puoli GPT-4Koulutus on sen kyky osoittaa tuntemustaan tiettyihin kirjoihin ja jopa muistaa ainutlaatuisia tunnisteita alustoilta, kuten Project Euler. Tutkijat ovat yrittäneet poimia ulkoa opittuja osia kirjoista GPT-4 saada näkemyksiä sen koulutuksesta, mikä lisää uteliaisuutta mallin sisäisestä toiminnasta. Nämä löydöt korostavat sen hämmästyttävää kapasiteettia GPT-4 säilyttää tiedot ja korostaa laajamittaisten kielimallien vaikuttavia ominaisuuksia.

Monipuolisuus GPT-4

Laaja kirjo aiheita ja aloja, jotka GPT-4 voi näennäisesti sitoutua esittelee sen monipuolisuutta. Olipa kyse monimutkaisiin tietojenkäsittelytieteen kysymyksiin vastaamisesta tai filosofisiin keskusteluihin sukeltamisesta, GPT-4Koulutus monipuolisesta tietojoukosta antaa sen vuorovaikutukseen eri verkkotunnuksista tulevien käyttäjien kanssa. Tämä monipuolisuus johtuu sen altistumisesta laajalle valikoimalle tekstiresursseja, mikä tekee siitä arvokkaan työkalun useille käyttäjille.

Lue lisää tekoälystä:

Tunnisteet:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.

lisää artikkeleita

Damir Yalalov