Buletin de stiri Tehnologia
Iulie 11, 2023

GPT-4Detaliile divulgate aruncă lumină asupra amplorii sale masive și asupra arhitecturii impresionante

Pe scurt

Informațiile scurse despre GPT-4 a stârnit entuziasm în rândul comunității AI. Cu parametrii de peste 10 ori mai mari decât predecesorul său, GPT-3, GPT-4 se estimează că are 1.8 trilioane de parametri distribuiți pe 120 de straturi.

OpenAI a implementat un model de amestec de experți (MoE), utilizând 16 experți cu 111 miliarde de parametri pentru perceptroni multistrat (MLP). Procesul eficient de inferență al modelului utilizează 280 de miliarde de parametri și 560 de TFLOP-uri pe trecere înainte, demonstrând OpenAIangajamentul lui de a maximiza eficiența și rentabilitatea. Setul de date de antrenament al modelului include 13 trilioane de jetoane, cu reglaj fin de la 8k la 32k.

OpenAI a folosit paralelismul în GPT-4 pentru a valorifica întregul potențial al GPU-urilor lor A100, utilizând paralelismul tensorului cu 8 căi și paralelismul conductei cu 15 căi. Procesul de instruire a fost amplu și a consumat resurse intensive, cu costuri variind de la 32 de milioane de dolari la 63 de milioane de dolari.

GPT-4Costul de inferență al lui este de aproximativ trei ori mai mare decât predecesorul său, dar încorporează, de asemenea, atenție la interogări multiple, loturi continuă și decodare speculativă. Arhitectura de inferență funcționează pe un cluster de 128 de GPU, distribuite în mai multe centre de date.

Scurgerea recentă a detaliilor din jur GPT-4 a trimis unde de șoc prin comunitatea AI. Informațiile scurse, obținute dintr-o sursă nedezvăluită, oferă o privire asupra capabilităților uimitoare și a dimensiunii fără precedent ale acestui model inovator. Vom descompune faptele și vom dezvălui aspectele cheie care fac GPT-4 o adevărată minune tehnologică.

GPT-4Detaliile divulgate aruncă lumină asupra amplorii sale masive și asupra arhitecturii impresionante
Credit: Metaverse Post (mpost.io)

GPT-4Numărul masiv de parametri ai lui

Una dintre cele mai izbitoare revelații de la scurgere este amploarea GPT-4. Se mândrește cu o dimensiune uluitoare, cu parametrii de peste 10 ori mai mari decât predecesorul său, GPT-3. Se estimează că are un total uluitor de aproximativ 1.8 trilioane de parametri distribuite pe 120 de straturi impresionante. Această creștere substanțială de scară contribuie, fără îndoială, la GPT-4capacitățile îmbunătățite ale lui și potențialul de progrese inovatoare.

Model de amestec de experți (MoE)

Pentru a asigura costuri rezonabile, menținând în același timp performanțe excepționale, OpenAI a implementat un model mixt de experți (MoE) în GPT-4. Prin utilizarea a 16 experți în cadrul modelului, fiecare constând din aproximativ 111 miliarde de parametri pentru perceptroni multistrat (MLP), OpenAI alocarea eficientă a resurselor. În special, în timpul fiecărei treceri înainte, doar doi experți sunt direcționați, minimizând cerințele de calcul fără a compromite rezultatele. Această abordare inovatoare demonstrează OpenAIangajamentul lui de a maximiza eficiența și rentabilitatea modelelor lor.

Algoritm de rutare MoE simplificat

În timp ce modelul explorează adesea algoritmi de rutare avansați pentru selectarea experților care să gestioneze fiecare token, OpenAIabordarea lui în curent GPT-4 Se pare că modelul este mai simplu. Se presupune că algoritmul de rutare folosit de AI este relativ simplu, dar totuși eficient. Aproximativ 55 de miliarde de parametri partajați pentru atenție facilitează distribuirea eficientă a jetoanelor către experții corespunzători din cadrul modelului.

Inferență eficientă

GPT-4Procesul de inferență al lui își arată eficiența și priceperea de calcul. Fiecare trecere înainte, dedicată generării unui singur token, utilizează aproximativ 280 de miliarde de parametri și 560 de TFLOP (tera operațiuni în virgulă mobilă pe secundă). Acest lucru este în contrast puternic cu scara imensă a GPT-4, cu parametrii săi de 1.8 trilioane și 3,700 de TFLOP pe trecere înainte într-un model pur dens. Utilizarea eficientă a resurselor evidențiază OpenAIdevotamentul lui pentru a obține performanțe optime fără cerințe de calcul excesive.

Set extins de date de instruire

GPT-4 a fost antrenat pe un set de date colosal care cuprinde aproximativ 13 trilioane de jetoane. Este important de reținut că aceste jetoane includ atât jetoane unice, cât și jetoane care reprezintă numerele de epocă. The procesul de instruire include două epoci pentru datele bazate pe text și patru epoci pentru datele bazate pe cod. OpenAI a exploatat milioane de rânduri de instrucțiuni de reglare fină a datelor provenite de la ScaleAI și intern pentru a rafina performanța modelului.

Rafinament prin reglaj fin de la 8K la 32K

Faza de pre-antrenament a GPT-4 a folosit o lungime de context de 8k. Ulterior, modelul a suferit o reglare fină, rezultând versiunea de 32k. Această progresie se bazează pe faza de pre-antrenament, îmbunătățind capacitățile modelului și adaptându-l la sarcini specifice.

Scalare cu GPU-uri prin paralelism

OpenAI a valorificat puterea paralelismului în GPT-4 pentru a valorifica întregul potențial al GPU-urilor lor A100. Ei au folosit paralelismul tensorului cu 8 căi, care maximizează procesarea paralelă, deoarece este limita pentru NVLink. În plus, paralelismul conductei cu 15 căi a fost utilizat pentru a îmbunătăți și mai mult performanța. În timp ce tehnici specifice, cum ar fi ZeRo Stage 1, au fost probabil folosite, metodologia exactă rămâne nedezvăluită.

Costul de formare și provocări de utilizare

Pregătire GPT-4 a fost un efort extins și care consuma mult resurse. OpenAI a alocat aproximativ 25,000 de GPU A100 pe o perioadă de 90 până la 100 de zile, funcționând la o rată de utilizare de aproximativ 32% până la 36% MFU (cel mai frecvent utilizat). Procesul de instruire a suferit numeroase eșecuri, necesitând reporniri frecvente de la punctele de control. Dacă este estimat la 1 USD pe oră A100, costuri de formare numai pentru această rulare s-ar ridica la aproximativ 63 de milioane de dolari.

Compensații în amestec de experți

Implementarea unui model mixt de experți prezintă mai multe compromisuri. În cazul în care GPT-4, OpenAI a optat pentru 16 experți în loc de un număr mai mare. Această decizie reflectă un echilibru între obținerea unor rezultate superioare de pierdere și asigurarea generalizării în diferite sarcini. Mai mulți experți pot prezenta provocări în ceea ce privește generalizarea sarcinilor și convergența. OpenAIalegerea lui de a face exerciții prudență în expert selecția se aliniază cu angajamentul lor față de performanțe fiabile și robuste.

Costul de inferență

În comparație cu predecesorul său, modelul Davinci cu 175 de miliarde de parametri, GPT-4costul de inferență este de aproximativ trei ori mai mare. Această discrepanță poate fi atribuită mai multor factori, inclusiv clusterelor mai mari necesare pentru a fi susținute GPT-4 și utilizarea mai scăzută realizată în timpul inferenței. Estimările indică un cost aproximativ de 0.0049 USD pentru 1,000 de jetoane pentru 128 de GPU-uri A100 și 0.0021 USD pentru 1,000 de jetoane pentru 128 de GPU-uri H100 atunci când se deduce GPT-4 cu un 8k. Aceste cifre presupun o utilizare decentă și dimensiuni mari ale loturilor, considerente cruciale pentru optimizarea costurilor.

Atenție la mai multe interogări

OpenAI valorifică atenția multi-interogare (MQA), o tehnică utilizată pe scară largă în domeniu, în GPT-4 de asemenea. Prin implementarea MQA, modelul necesită un singur cap, reducând semnificativ capacitatea de memorie necesară pentru cache-ul cheie-valoare (cache KV). În ciuda acestei optimizări, trebuie remarcat faptul că lotul de 32k GPT-4 nu poate fi găzduit pe GPU-uri A40 de 100 GB, iar 8k este constrâns de dimensiunea maximă a lotului.

Dozare continuă

Pentru a găsi un echilibru între costurile de latență și de inferență, OpenAI încorporează atât dimensiuni variabile ale lotului, cât și dozare continuă GPT-4. Această abordare adaptivă permite o procesare flexibilă și eficientă, optimizând utilizarea resurselor și reducând cheltuielile de calcul.

Viziune Multi-Modal

GPT-4 introduce un codificator de viziune separat alături de codificatorul de text, prezentând o atenție încrucișată între cele două. Această arhitectură, care amintește de Flamingo, adaugă parametri suplimentari numărului de parametri deja impresionant de 1.8 trilioane de GPT-4. Modelul de viziune suferă o reglare fină separată folosind aproximativ 2 trilioane de jetoane în urma fazei de pre-antrenament numai text. Această capacitate de viziune dă putere agenţi autonomi pentru a citi pagini web, a transcrie imagini și a interpreta conținut video - un atu de neprețuit în era datelor multimedia.

Decodare speculativă

Un aspect interesant al GPT-4Strategia de inferență a lui este posibila utilizare a decodării speculative. Această abordare presupune folosirea unei mai mici, mai rapide model pentru a genera în avans predicții pentru mai multe jetoane. Aceste jetoane prezise sunt apoi introduse într-un model „oracol” mai mare ca un singur lot. Dacă cu atât mai mic previziunile modelului în conformitate cu acordul modelului mai mare, mai multe jetoane pot fi decodificate împreună. Cu toate acestea, dacă modelul mai mare respinge jetoanele prezise de modelul nefinalizat, restul lotului este eliminat, iar inferența continuă numai cu modelul mai mare. Această abordare permite o decodare eficientă, acceptând în același timp secvențe cu probabilitate mai mică. Este de remarcat faptul că această speculație rămâne neverificată în acest moment.

Arhitectura de inferență

GPT-4Procesul de inferență al lui operează pe un cluster de 128 de GPU, distribuite în mai multe centre de date în diferite locații. Această infrastructură folosește paralelismul tensorului cu 8 căi și paralelismul conductei cu 16 căi pentru a maximiza eficiența computațională. Fiecare nod, cuprinzând 8 GPU-uri, găzduiește aproximativ 130 de miliarde de parametri. Cu o dimensiune a modelului de 120 de straturi, GPT-4 se poate încadra în 15 noduri diferite, posibil cu mai puține straturi în primul nod datorită necesității de a calcula înglobările. Aceste alegeri arhitecturale facilitează inferența de înaltă performanță, demonstrând OpenAIangajamentul lui de a depăși limitele eficienței computaționale.

Dimensiunea și compoziția setului de date

GPT-4 a fost antrenat pe 13 trilioane de jetoane impresionante, oferindu-i un corpus extins de text din care să învețe. Cu toate acestea, nu toate jetoanele pot fi luate în considerare de seturile de date cunoscute utilizate în timpul antrenamentului. În timp ce seturi de date precum CommonCrawl și RefinedWeb contribuie cu o parte semnificativă a date de instruire, rămâne o porțiune de jetoane care nu sunt contabilizate, adesea denumite date „secrete”.

Zvonuri și speculații

Au apărut speculații cu privire la originea acestor date nedezvăluite. Un zvon sugerează că include conținut de pe platforme populare precum Twitter, Reddit și YouTube, subliniind potențiala influență a conținutului generat de utilizatori în modelarea GPT-4baza de cunoștințe a lui. În plus, există presupuneri cu privire la includerea unor colecții extinse precum LibGen, un depozit de milioane de cărți și Sci-Hub, o platformă care oferă acces la numeroase lucrări științifice. Noțiunea că GPT-4 a fost instruit pe întregul GitHub a circulat și printre entuziaștii AI.

Opinia Reporterului

Deși există multe zvonuri, este important să abordăm aceste zvonuri cu prudență. Antrenamentul de GPT-4 este posibil să fi beneficiat foarte mult de un set de date special format din manuale de facultate. Acest set de date, care acoperă o gamă largă de cursuri și subiecte, ar fi putut fi asamblat manual. Manualele universitare oferă o bază de cunoștințe structurată și cuprinzătoare care poate fi folosită cu succes pentru a instrui un model de limbă și sunt ușor de convertit în fișiere text. Includerea unui astfel de set de date ar putea da impresia că GPT-4 are cunoștințe într-o varietate de domenii.

Fascinația cu GPT-4Cunoașterea lui

Un aspect intrigant al GPT-4Antrenamentul lui este capacitatea sa de a manifesta familiaritatea cu anumite cărți și chiar de a reaminti identificatori unici de pe platforme precum Project Euler. Cercetătorii au încercat să extragă secțiuni memorate de cărți din GPT-4 pentru a obține informații despre pregătirea sa, alimentând și mai mult curiozitatea cu privire la funcționarea interioară a modelului. Aceste descoperiri evidențiază capacitatea uluitoare a GPT-4 pentru a reține informațiile și a sublinia capacitățile impresionante ale modelelor de limbaj la scară largă.

Versatilitatea GPT-4

Spectrul larg de subiecte și domenii care GPT-4 se poate angaja aparent cu vitrinele sale versatilitate. Fie că este vorba de răspunsuri la întrebări complexe din informatică sau de aprofundarea în dezbateri filozofice, GPT-4instruirea lui pe un set de date divers îl echipează să interacționeze cu utilizatori din diverse domenii. Această versatilitate provine din expunerea sa la o gamă largă de resurse textuale, făcându-l un instrument valoros pentru o gamă largă de utilizatori.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Trecerea lui Donald Trump la criptomonede: de la oponent la avocat și ce înseamnă aceasta pentru piața criptomonedelor din SUA
Afaceri pieţe Povești și recenzii Tehnologia
Trecerea lui Donald Trump la criptomonede: de la oponent la avocat și ce înseamnă aceasta pentru piața criptomonedelor din SUA
10 Mai, 2024
Layer3 va lansa tokenul L3 vara aceasta, alocand 51% din totalul aprovizionării comunității
pieţe Buletin de stiri Tehnologia
Layer3 va lansa tokenul L3 vara aceasta, alocand 51% din totalul aprovizionării comunității
10 Mai, 2024
Avertismentul final al lui Edward Snowden pentru dezvoltatorii Bitcoin: „Faceți din confidențialitate o prioritate la nivel de protocol sau riscați să o pierdeți
pieţe Securitate Wiki Software Povești și recenzii Tehnologia
Avertismentul final al lui Edward Snowden pentru dezvoltatorii Bitcoin: „Faceți din confidențialitate o prioritate la nivel de protocol sau riscați să o pierdeți
10 Mai, 2024
Ethereum Layer 2 Network Mint, alimentat de optimism, își va lansa rețeaua principală pe 15 mai
Buletin de stiri Tehnologia
Ethereum Layer 2 Network Mint, alimentat de optimism, își va lansa rețeaua principală pe 15 mai
10 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.