GPT-4I dettagli trapelati fanno luce sulla sua enorme scala e sulla sua impressionante architettura
In Breve
Le informazioni trapelate su GPT-4 ha suscitato entusiasmo nella comunità dell’intelligenza artificiale. Con oltre 10 volte i parametri del suo predecessore, GPT-3, GPT-4 si stima che abbia 1.8 trilioni di parametri distribuiti su 120 strati.
OpenAI ha implementato un modello misto di esperti (MoE), utilizzando 16 esperti con 111 miliardi di parametri per percettroni multistrato (MLP). L'efficiente processo di inferenza del modello utilizza 280 miliardi di parametri e 560 TFLOP per passaggio in avanti, dimostrando OpenAIl'impegno di massimizzare l'efficienza e l'efficacia in termini di costi. Il set di dati di addestramento del modello include 13 trilioni di token, con messa a punto da 8k a 32k.
OpenAI utilizzato il parallelismo in GPT-4 per sfruttare tutto il potenziale delle GPU A100, utilizzando il parallelismo del tensore a 8 vie e il parallelismo della pipeline a 15 vie. Il processo di formazione è stato ampio e ad alta intensità di risorse, con costi che andavano da 32 milioni di dollari a 63 milioni di dollari.
GPT-4Il costo di inferenza di è circa tre volte superiore rispetto al suo predecessore, ma incorpora anche attenzione multi-query, batch continuo e decodifica speculativa. L'architettura di inferenza opera su un cluster di 128 GPU, distribuite su più data center.
La recente fuga di dettagli circostanti GPT-4 ha inviato onde d'urto attraverso la comunità dell'intelligenza artificiale. Le informazioni trapelate, ottenute da una fonte sconosciuta, offrono uno sguardo sulle straordinarie capacità e sulla portata senza precedenti di questo modello rivoluzionario. Analizzeremo i fatti e sveleremo gli aspetti chiave che lo rendono GPT-4 una vera meraviglia tecnologica.
- GPT-4Contengono i parametri enormi di
- Modello misto di esperti (MoE)
- Algoritmo di instradamento MoE semplificato
- Inferenza efficiente
- Ampio set di dati di formazione
- Perfezionamento attraverso la messa a punto da 8K a 32K
- Ridimensionamento con GPU tramite parallelismo
- Costi di formazione e sfide di utilizzo
- Compromessi nella miscela di esperti
- Costo dell'inferenza
- Attenzione multi-query
- Dosaggio continuo
- Visione multimodale
- Decodifica speculativa
- Architettura di inferenza
- Dimensione e composizione del set di dati
- Voci e speculazioni
- L'opinione del giornalista
- Il fascino di GPT-4La Conoscenza
- La versatilità di GPT-4
GPT-4Contengono i parametri enormi di
Una delle rivelazioni più sorprendenti della fuga di notizie è la sua vastità GPT-4. Vanta dimensioni sorprendenti, con oltre 10 volte i parametri del suo predecessore, GPT-3. Si stima che abbia un totale sconcertante di circa 1.8 trilioni di parametri distribuito su ben 120 strati. Questo sostanziale aumento di scala contribuisce indubbiamente a GPT-4le funzionalità avanzate di e il potenziale per progressi rivoluzionari.
Modello misto di esperti (MoE)
Per garantire costi ragionevoli pur mantenendo prestazioni eccezionali, OpenAI ha implementato un modello misto di esperti (MoE). GPT-4. Utilizzando 16 esperti all'interno del modello, ciascuno composto da circa 111 miliardi di parametri per percettroni multistrato (MLP), OpenAI allocazione delle risorse ottimizzata in modo efficace. In particolare, durante ogni passaggio in avanti, vengono instradati solo due esperti, riducendo al minimo i requisiti computazionali senza compromettere i risultati. Questo approccio innovativo dimostra OpenAIl'impegno di massimizzare l'efficienza e l'economicità dei propri modelli.
Perdita molto interessante e dettagliata del GPT-4 architettura, con un'eccellente analisi del ragionamento che sta dietro ad essa e delle sue implicazioni – di @dylan522p :https://t.co/eHE7VlGY5V
— Jan P. Harries (@jphme) Luglio 11, 2023
Un riepilogo non protetto da paywall è disponibile qui: https://t.co/rLxw5s9ZDt
Algoritmo di instradamento MoE semplificato
Sebbene il modello esplori spesso algoritmi di routing avanzati per la selezione di esperti per gestire ogni token, OpenAIl'approccio di oggi GPT-4 il modello è secondo quanto riferito più semplice. Si ritiene che l’algoritmo di routing utilizzato dall’IA sia relativamente semplice, ma comunque efficace. Circa 55 miliardi di parametri condivisi per l'attenzione facilitano la distribuzione efficiente dei token agli esperti appropriati all'interno del modello.
Inferenza efficiente
GPT-4Il processo di inferenza di mostra la sua efficienza e capacità computazionale. Ogni passaggio in avanti, dedicato alla generazione di un singolo token, utilizza circa 280 miliardi di parametri e 560 TFLOP (tera operazioni in virgola mobile al secondo). Ciò è in netto contrasto con l’immensa scala di GPT-4, con i suoi 1.8 trilioni di parametri e 3,700 TFLOP per passaggio in avanti in un modello puramente denso. L'uso efficiente delle risorse evidenzia OpenAIla dedizione di ottenere prestazioni ottimali senza requisiti computazionali eccessivi.
Ampio set di dati di formazione
GPT-4 è stato addestrato su un set di dati colossale comprendente circa 13 trilioni di token. È importante notare che questi token includono sia token unici che token che tengono conto dei numeri di epoca. IL processo di formazione include due epoche per i dati basati su testo e quattro epoche per i dati basati su codice. OpenAI ha sfruttato milioni di righe di dati di messa a punto delle istruzioni provenienti da ScaleAI e internamente per perfezionare le prestazioni del modello.
Perfezionamento attraverso la messa a punto da 8K a 32K
La fase di pre-formazione di GPT-4 ha utilizzato una lunghezza del contesto di 8k. Successivamente il modello è stato perfezionato, dando vita alla versione 32k. Questa progressione si basa sulla fase di pre-addestramento, migliorando le capacità del modello e adattandolo a compiti specifici.
Ridimensionamento con GPU tramite parallelismo
OpenAI ha sfruttato il potere del parallelismo GPT-4 per sfruttare tutto il potenziale delle loro GPU A100. Hanno utilizzato il parallelismo tensore a 8 vie, che massimizza l'elaborazione parallela, poiché è il limite per NVLink. Inoltre, è stato utilizzato il parallelismo della pipeline a 15 vie per migliorare ulteriormente le prestazioni. Sebbene siano state probabilmente utilizzate tecniche specifiche come ZeRo Stage 1, la metodologia esatta rimane sconosciuta.
Costi di formazione e sfide di utilizzo
Training GPT-4 è stato uno sforzo vasto e ad alta intensità di risorse. OpenAI allocato circa 25,000 GPU A100 per un periodo da 90 a 100 giorni, operando a un tasso di utilizzo di circa il 32% al 36% MFU (più frequentemente utilizzato). Il processo di addestramento ha subito numerosi fallimenti, che hanno richiesto frequenti riavvii dai posti di blocco. Se stimato a $ 1 per A100 ora, il costi di formazione solo per questa corsa ammonterebbe a circa $ 63 milioni.
Compromessi nella miscela di esperti
L’implementazione di un modello misto di esperti presenta diversi compromessi. In caso di GPT-4, OpenAI ha optato per 16 esperti invece di un numero più elevato. Questa decisione riflette un equilibrio tra il raggiungimento di risultati di perdita superiori e la garanzia di generalizzabilità tra vari compiti. Più esperti possono presentare sfide in termini di generalizzazione e convergenza dei compiti. OpenAIla scelta di esercitare cautela nell'esperto la selezione è in linea con il loro impegno per prestazioni affidabili e robuste.
Costo dell'inferenza
Rispetto al suo predecessore, il modello Davinci da 175 miliardi di parametri, GPT-4Il costo di inferenza è circa tre volte superiore. Questa discrepanza può essere attribuita a diversi fattori, inclusi i cluster più grandi necessari per il supporto GPT-4 e il minor utilizzo ottenuto durante l'inferenza. Le stime indicano un costo approssimativo di 0.0049 centesimi di dollari per 1,000 token per 128 GPU A100 e 0.0021 centesimi di dollari per 1,000 token per 128 GPU H100 se si deduce GPT-4 con un 8k. Queste cifre presuppongono un utilizzo decente e dimensioni elevate dei lotti, considerazioni cruciali per l’ottimizzazione dei costi.
Attenzione multi-query
OpenAI sfrutta l'attenzione multi-query (MQA), una tecnica ampiamente utilizzata nel settore, in GPT-4 anche. Implementando MQA, il modello richiede solo una testa, riducendo significativamente la capacità di memoria necessaria per la cache dei valori-chiave (cache KV). Nonostante questa ottimizzazione, va notato che il batch da 32k GPT-4 non può essere supportato su GPU A40 da 100 GB e 8k è limitato dalla dimensione massima del batch.
Dosaggio continuo
Per trovare un equilibrio tra latenza e costi di inferenza, OpenAI incorpora sia dimensioni di batch variabili che batch continui GPT-4. Questo approccio adattivo consente un'elaborazione flessibile ed efficiente, ottimizzando l'utilizzo delle risorse e riducendo il sovraccarico computazionale.
Visione multimodale
GPT-4 introduce un codificatore di visione separato accanto al codificatore di testo, presentando un'attenzione incrociata tra i due. Questa architettura, che ricorda Flamingo, aggiunge parametri aggiuntivi al già impressionante numero di 1.8 trilioni di parametri GPT-4. Il modello di visione viene sottoposto a una messa a punto separata utilizzando circa 2 trilioni di token dopo la fase di pre-addestramento di solo testo. Questa capacità di visione dà potere agenti autonomi leggere pagine web, trascrivere immagini e interpretare contenuti video: una risorsa inestimabile nell'era dei dati multimediali.
Decodifica speculativa
Un aspetto interessante di GPT-4La strategia di inferenza di è il possibile utilizzo della decodifica speculativa. Questo approccio prevede l'utilizzo di un sistema più piccolo e più veloce modello per generare previsioni per più token in anticipo. Questi token previsti vengono quindi inseriti in un modello "oracolo" più grande come un singolo batch. Se il più piccolo previsioni del modello in linea con l'accordo del modello più grande, diversi token possono essere decodificati insieme. Tuttavia, se il modello più grande rifiuta i token previsti dal modello bozza, il resto del batch viene scartato e l'inferenza continua esclusivamente con il modello più grande. Questo approccio consente una decodifica efficiente pur accettando potenzialmente sequenze di probabilità inferiori. Vale la pena notare che questa speculazione rimane non verificata in questo momento.
Architettura di inferenza
GPT-4Il processo di inferenza di opera su un cluster di 128 GPU, distribuite su più data center in luoghi diversi. Questa infrastruttura utilizza il parallelismo del tensore a 8 vie e il parallelismo della pipeline a 16 vie per massimizzare l'efficienza computazionale. Ogni nodo, composto da 8 GPU, ospita circa 130 miliardi di parametri. Con una dimensione del modello di 120 strati, GPT-4 può adattarsi a 15 nodi diversi, possibilmente con meno livelli nel primo nodo a causa della necessità di calcolare gli incorporamenti. Queste scelte architetturali facilitano l'inferenza ad alte prestazioni, dimostrando OpenAIl'impegno di spingere i confini dell'efficienza computazionale.
Dimensione e composizione del set di dati
GPT-4 è stato addestrato su ben 13 trilioni di token, fornendogli un ampio corpus di testi da cui imparare. Tuttavia, non tutti i token possono essere presi in considerazione dai set di dati noti utilizzati durante l'addestramento. Mentre set di dati come CommonCrawl e RefinedWeb contribuiscono con una parte significativa del dati di allenamento, rimane una parte dei token non contabilizzati, spesso indicati come dati "segreti".
Voci e speculazioni
Sono emerse speculazioni sull'origine di questi dati non divulgati. Una voce suggerisce che includa contenuti provenienti da piattaforme popolari come Twitter, Reddit e YouTube, evidenziando la potenziale influenza dei contenuti generati dagli utenti nel plasmare GPT-4la base di conoscenza di. Inoltre, ci sono congetture sull’inclusione di vaste raccolte come LibGen, un archivio di milioni di libri, e Sci-Hub, una piattaforma che fornisce accesso a numerosi articoli scientifici. L'idea che GPT-4 è stato formato sull'intero GitHub ed è circolato anche tra gli appassionati di intelligenza artificiale.
L'opinione del giornalista
Sebbene ci siano molte voci, è importante affrontarle con cautela. La formazione di GPT-4 potrebbe aver tratto grandi benefici da uno speciale set di dati composto da libri di testo universitari. Questo set di dati, che copre una vasta gamma di corsi e argomenti, avrebbe potuto essere faticosamente assemblato a mano. I libri di testo universitari forniscono una base di conoscenze strutturata e completa che può essere utilizzata con successo per addestrare un modello linguistico e sono facilmente convertibili in file di testo. L'inclusione di un tale set di dati potrebbe dare l'impressione che GPT-4 è esperto in vari campi.
Il fascino di GPT-4La Conoscenza
Un aspetto intrigante di GPT-4La formazione di è la sua capacità di mostrare familiarità con libri specifici e persino di ricordare identificatori univoci da piattaforme come Project Euler. I ricercatori hanno tentato di estrarre sezioni di libri memorizzate GPT-4 per ottenere informazioni dettagliate sulla sua formazione, alimentando ulteriormente la curiosità sul funzionamento interno del modello. Queste scoperte evidenziano la sorprendente capacità di GPT-4 per conservare le informazioni e sottolineare le impressionanti capacità dei modelli linguistici su larga scala.
La versatilità di GPT-4
L'ampio spettro di argomenti e campi che GPT-4 può apparentemente interagire con le vetrine della sua versatilità. Che si tratti di rispondere a domande complesse in ambito informatico o di approfondire dibattiti filosofici, GPT-4La formazione di su un set di dati diversificato gli consente di interagire con utenti di vari domini. Questa versatilità deriva dalla sua esposizione a una vasta gamma di risorse testuali, rendendolo uno strumento prezioso per una vasta gamma di utenti.
Per saperne di più sull'intelligenza artificiale:
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.
Altri articoliDamir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.