Juliol 11, 2023

GPT-4Els detalls filtrats de 's il·luminen la seva escala massiva i la seva arquitectura impressionant

Publicat: 11 de juliol de 2023 a les 7:19 Actualitzat: 11 de juliol de 2023 a les 7:23

Editat i verificat: 11 de juliol de 2023 a les 7:19 h

En breu

La informació filtrada sobre GPT-4 ha despertat il·lusió entre la comunitat d'IA. Amb més de 10 vegades els paràmetres del seu predecessor, GPT-3, GPT-4 s'estima que té 1.8 bilions de paràmetres distribuïts en 120 capes.

OpenAI va implementar un model de barreja d'experts (MoE), utilitzant 16 experts amb 111 milions de paràmetres per a perceptrons multicapa (MLP). El procés d'inferència eficient del model utilitza 280 mil milions de paràmetres i 560 TFLOP per passada, demostrant OpenAIel compromís de maximitzar l'eficiència i la rendibilitat. El conjunt de dades d'entrenament del model inclou 13 bilions de fitxes, amb un ajustament de 8k a 32k.

OpenAI va utilitzar el paral·lelisme GPT-4 per aprofitar tot el potencial de les seves GPU A100, utilitzant paral·lelisme de tensor de 8 vies i paral·lelisme de canonades de 15 vies. El procés de formació va ser extens i va consumir molts recursos, amb costos que van oscil·lar entre els 32 i els 63 milions de dòlars.

GPT-4El cost d'inferència de 's és aproximadament tres vegades més gran que el del seu predecessor, però també incorpora atenció a diverses consultes, lots continus i descodificació especulativa. L'arquitectura d'inferència funciona en un clúster de 128 GPU, distribuïdes en diversos centres de dades.

La filtració recent de detalls al voltant GPT-4 ha enviat ones de xoc a través de la comunitat d'IA. La informació filtrada, obtinguda d'una font no revelada, ofereix una visió de les capacitats impressionants i l'escala sense precedents d'aquest model innovador. Desglossarem els fets i desvetllarem els aspectes clau que en fan GPT-4 una autèntica meravella tecnològica.

GPT-4Els detalls filtrats de 's il·luminen la seva escala massiva i la seva arquitectura impressionant — Crèdit: Metaverse Post (mpost.io)

GPT-4Recompte massiu de paràmetres

Una de les revelacions més sorprenents de la filtració és la gran magnitud de GPT-4. Té una mida sorprenent, amb més de 10 vegades els paràmetres del seu predecessor, GPT-3. Es calcula que té un total sorprenent d'aproximadament 1.8 bilions de paràmetres distribuïts en 120 capes impressionants. Aquest augment substancial d'escala hi contribueix, sens dubte GPT-4capacitats millorades de i potencial per a avenços innovadors.

Model de barreja d'experts (MoE)

Per garantir costos raonables mantenint un rendiment excepcional, OpenAI implementat un model de barreja d'experts (MoE) a GPT-4. Mitjançant la utilització de 16 experts dins del model, cadascun format per uns 111 mil milions de paràmetres per a perceptrons multicapa (MLP), OpenAI assignació de recursos eficientment optimitzada. En particular, durant cada passada endavant, només s'encaminen dos experts, minimitzant els requisits computacionals sense comprometre els resultats. Aquest enfocament innovador ho demostra OpenAIel compromís de maximitzar l'eficiència i la rendibilitat en els seus models.

Fuga molt interessant i detallada del GPT-4 arquitectura, amb una excel·lent anàlisi del raonament que hi ha darrere i les seves implicacions – per @dylan522p :https://t.co/eHE7VlGY5V

Podeu trobar un resum sense pagaments aquí: https://t.co/rLxw5s9ZDt
— Jan P. Harries (@jphme) Juliol 11, 2023

Algorisme d'encaminament de MoE simplificat

Tot i que el model sovint explora algorismes d'encaminament avançats per seleccionar experts per gestionar cada testimoni, OpenAIl'enfocament de l'actual GPT-4 Sembla que el model és més senzill. Es diu que l'algoritme d'encaminament utilitzat per l'IA és relativament senzill, però tanmateix efectiu. Aproximadament 55 milions de paràmetres d'atenció compartits faciliten la distribució eficient de fitxes als experts adequats dins del model.

Inferència eficient

GPT-4El procés d'inferència de 's mostra la seva eficiència i habilitat computacional. Cada passada, dedicada a generar un únic testimoni, utilitza aproximadament 280 milions de paràmetres i 560 TFLOP (operacions de coma flotant per segon). Això contrasta clarament amb la immensa escala de GPT-4, amb els seus 1.8 bilions de paràmetres i 3,700 TFLOP per passada en un model purament dens. L'ús eficient dels recursos destaca OpenAIla dedicació d'aconseguir un rendiment òptim sense excessius requeriments computacionals.

Ampli conjunt de dades de formació

GPT-4 s'ha entrenat en un conjunt de dades colossal que inclou aproximadament 13 bilions de fitxes. És important tenir en compte que aquestes fitxes inclouen fitxes úniques i fitxes que representen els números d'època. El procés de formació inclou dues èpoques per a dades basades en text i quatre èpoques per a dades basades en codi. OpenAI va aprofitar milions de files d'instruccions per ajustar les dades procedents de ScaleAI i internament per refinar el rendiment del model.

La fase de pre-entrenament de GPT-4 va utilitzar una longitud de context de 8k. Posteriorment, el model va ser sotmès a un ajustament, donant lloc a la versió de 32k. Aquesta progressió es basa en la fase prèvia a la formació, millorant les capacitats del model i adaptant-lo a tasques específiques.

Escalat amb GPU mitjançant Paral·lelisme

OpenAI va aprofitar el poder del paral·lelisme GPT-4 per aprofitar tot el potencial de les seves GPU A100. Van emprar un paral·lelisme tensor de 8 vies, que maximitza el processament paral·lel, ja que és el límit per a NVLink. A més, es va utilitzar el paral·lelisme de canonades de 15 vies per millorar encara més el rendiment. Tot i que probablement es van utilitzar tècniques específiques com ara ZeRo Stage 1, la metodologia exacta no es revela.

Cost de la formació i reptes d'utilització

Formació GPT-4 va ser un esforç extens i intensiu en recursos. OpenAI va assignar aproximadament 25,000 GPU A100 durant un període de 90 a 100 dies, funcionant a una taxa d'utilització d'aproximadament entre el 32% i el 36% MFU (utilitzat amb més freqüència). El procés d'entrenament va incórrer en nombrosos errors, la qual cosa va requerir reinicis freqüents des dels punts de control. Si s'estima en 1 $ per hora A100, el costos de formació només per aquesta carrera ascendiria a uns 63 milions de dòlars.

Compartiments en la barreja d'experts

La implementació d'un model combinat d'experts presenta diverses compensacions. En el cas que GPT-4, OpenAI va optar per 16 experts en comptes d'un nombre superior. Aquesta decisió reflecteix un equilibri entre aconseguir resultats de pèrdues superiors i garantir la generalització en diverses tasques. Més experts poden presentar reptes en termes de generalització i convergència de tasques. OpenAIl'opció de fer exercici precaució en expert la selecció s'alinea amb el seu compromís amb un rendiment fiable i robust.

Cost d'inferència

En comparació amb el seu predecessor, el model Davinci de 175 milions de paràmetres, GPT-4El cost d'inferència és aproximadament tres vegades més gran. Aquesta discrepància es pot atribuir a diversos factors, inclosos els grups més grans necessaris per donar suport GPT-4 i la menor utilització aconseguida durant la inferència. Les estimacions indiquen un cost aproximat de 0.0049 $ per cada 1,000 testimonis per a 128 GPU A100 i de 0.0021 $ per cada 1,000 tokens per a 128 GPU H100 quan es dedueix. GPT-4 amb un 8k. Aquestes xifres suposen una utilització decent i grans mides de lot, consideracions crucials per a l'optimització de costos.

Atenció de múltiples consultes

OpenAI aprofita l'atenció multiconsulta (MQA), una tècnica àmpliament emprada en el camp GPT-4 també. En implementar MQA, el model només requereix un cap, reduint significativament la capacitat de memòria necessària per a la memòria cau de valor-clau (caché KV). Malgrat aquesta optimització, cal tenir en compte que el lot de 32k GPT-4 no es pot allotjar a les GPU A40 de 100 GB i el 8k està limitat per la mida màxima del lot.

Lot continu

Per aconseguir un equilibri entre la latència i els costos d'inferència, OpenAI incorpora tant mides de lots variables com lots continus GPT-4. Aquest enfocament adaptatiu permet un processament flexible i eficient, optimitzant la utilització dels recursos i reduint la sobrecàrrega computacional.

GPT-4 introdueix un codificador de visió independent al costat del codificador de text, amb una atenció creuada entre els dos. Aquesta arquitectura, que recorda a Flamingo, afegeix paràmetres addicionals al ja impressionant 1.8 bilions de paràmetres de GPT-4. El model de visió se sotmet a un ajustament per separat amb aproximadament 2 bilions de fitxes després de la fase de preentrenament només de text. Aquesta capacitat de visió potencia agents autònoms per llegir pàgines web, transcriure imatges i interpretar contingut de vídeo, un actiu inestimable en l'era de les dades multimèdia.

Descodificació especulativa

Un aspecte interessant de GPT-4L'estratègia d'inferència és el possible ús de la descodificació especulativa. Aquest enfocament implica emprar un més petit i més ràpid model per generar prediccions per a múltiples fitxes amb antelació. Aquestes fitxes previstes s'alimenten després a un model "oracle" més gran com a lot únic. Si el més petit prediccions del model d'acord amb l'acord del model més gran, es poden descodificar diversos fitxes junts. Tanmateix, si el model més gran rebutja les fitxes previstes pel model d'esborrany, la resta del lot es descarta i la inferència continua només amb el model més gran. Aquest enfocament permet una descodificació eficient alhora que accepta seqüències de probabilitat més baixa. Val la pena assenyalar que aquesta especulació encara no s'ha verificat en aquest moment.

Arquitectura d'inferència

GPT-4El procés d'inferència de 's opera en un clúster de 128 GPU, distribuïdes en diversos centres de dades en diferents ubicacions. Aquesta infraestructura utilitza paral·lelisme de tensor de 8 vies i paral·lelisme de canonada de 16 vies per maximitzar l'eficiència computacional. Cada node, que consta de 8 GPU, té aproximadament 130 mil milions de paràmetres. Amb una mida de model de 120 capes, GPT-4 pot cabre dins de 15 nodes diferents, possiblement amb menys capes al primer node a causa de la necessitat de calcular incrustacions. Aquestes opcions arquitectòniques faciliten la inferència d'alt rendiment, demostrant OpenAIel compromís de superar els límits de l'eficiència computacional.

Mida i composició del conjunt de dades

GPT-4 va ser entrenat amb uns impressionants 13 bilions de fitxes, proporcionant-li un ampli corpus de text per aprendre. Tanmateix, no tots els testimonis es poden comptabilitzar amb els conjunts de dades coneguts utilitzats durant l'entrenament. Tot i que conjunts de dades com CommonCrawl i RefinedWeb aporten una part important del dades de formació, encara hi ha una part de fitxes que no es comptabilitzen, sovint anomenades dades "secretes".

Rumors i especulacions

Han sorgit especulacions sobre l'origen d'aquestes dades no revelades. Un rumor suggereix que inclou contingut de plataformes populars com Twitter, Reddit i YouTube, destacant la influència potencial del contingut generat per l'usuari en la configuració. GPT-4la base de coneixements de. A més, hi ha conjectures sobre la inclusió de col·leccions expansives com LibGen, un dipòsit de milions de llibres, i Sci-Hub, una plataforma que ofereix accés a nombrosos articles científics. La noció que GPT-4 va ser entrenat a la totalitat de GitHub també ha circulat entre els entusiastes de la IA.

L'opinió del periodista

Encara que hi ha molts rumors, és important abordar aquests rumors amb precaució. La formació de GPT-4 pot haver-se beneficiat molt d'un conjunt de dades especial format per llibres de text universitaris. Aquest conjunt de dades, que cobreix una àmplia gamma de cursos i matèries, podria haver-se muntat amb cura a mà. Els llibres de text universitaris proporcionen una base de coneixement estructurada i completa que es pot utilitzar amb èxit per entrenar un model d'idioma i es poden convertir fàcilment en fitxers de text. La inclusió d'aquest conjunt de dades pot donar la impressió que GPT-4 té coneixements en diversos camps.

La fascinació per GPT-4el Coneixement

Un aspecte intrigant de GPT-4La formació de 's és la seva capacitat per mostrar familiaritat amb llibres específics i fins i tot recordar identificadors únics de plataformes com Project Euler. Els investigadors han intentat extreure seccions memoritzades de llibres GPT-4 per obtenir informació sobre la seva formació, alimentant encara més la curiositat sobre el funcionament intern del model. Aquests descobriments posen de manifest la sorprenent capacitat de GPT-4 per retenir la informació i subratllar les capacitats impressionants dels models lingüístics a gran escala.

La versatilitat de GPT-4

L'ampli espectre de temes i camps que GPT-4 aparentment pot implicar-se amb la seva versatilitat. Ja sigui responent preguntes complexes en informàtica o aprofundint en debats filosòfics, GPT-4La formació sobre un conjunt de dades divers l'equipa per interactuar amb usuaris de diversos dominis. Aquesta versatilitat prové de la seva exposició a una àmplia gamma de recursos textuals, cosa que la converteix en una eina valuosa per a una àmplia gamma d'usuaris.

Llegeix més sobre AI:

etiquetes:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.

més articles

Damir Yalalov