11 de julho de 2023

GPT-4Os detalhes vazados lançam luz sobre sua enorme escala e arquitetura impressionante

Publicado: 11 de julho de 2023 às 7h19 Atualizado: 11 de julho de 2023 às 7h23

Editado e verificado: 11 de julho de 2023 às 7h19

Em Breve

As informações vazadas sobre GPT-4 gerou entusiasmo entre a comunidade de IA. Com mais de 10 vezes os parâmetros do seu antecessor, GPT-3, GPT-4 estima-se que tenha 1.8 trilhão de parâmetros distribuídos em 120 camadas.

OpenAI implementou um modelo misto de especialistas (MoE), utilizando 16 especialistas com 111 bilhões de parâmetros para perceptrons multicamadas (MLP). O eficiente processo de inferência do modelo utiliza 280 bilhões de parâmetros e 560 TFLOPs por avanço, demonstrando OpenAIcompromisso da empresa em maximizar a eficiência e a relação custo-eficácia. O conjunto de dados de treinamento do modelo inclui 13 trilhões de tokens, com ajuste fino de 8k a 32k.

OpenAI utilizou paralelismo em GPT-4 para aproveitar todo o potencial de suas GPUs A100, empregando paralelismo de tensor de 8 vias e paralelismo de pipeline de 15 vias. O processo de treinamento foi extenso e exigiu muitos recursos, com custos variando de US$ 32 milhões a US$ 63 milhões.

GPT-4O custo de inferência do é aproximadamente três vezes maior que seu antecessor, mas também incorpora atenção multi-consulta, lote contínuo e decodificação especulativa. A arquitetura de inferência opera em um cluster de 128 GPUs, distribuídas em vários data centers.

O recente vazamento de detalhes em torno GPT-4 enviou ondas de choque através da comunidade de IA. As informações vazadas, obtidas de uma fonte não revelada, fornecem um vislumbre das capacidades inspiradoras e da escala sem precedentes deste modelo inovador. Analisaremos os fatos e revelaremos os principais aspectos que tornam GPT-4 uma verdadeira maravilha tecnológica.

GPT-4Os detalhes vazados lançam luz sobre sua enorme escala e arquitetura impressionante — Crédito: Metaverse Post (mpost.io)

GPT-4Contagem massiva de parâmetros

Uma das revelações mais impressionantes do vazamento é a enorme magnitude do GPT-4. Possui um tamanho surpreendente, com mais de 10 vezes os parâmetros do seu antecessor, GPT-3. Estima-se que tenha um total surpreendente de aproximadamente 1.8 trilhões de parâmetros distribuídos em impressionantes 120 camadas. Este aumento substancial de escala, sem dúvida, contribui para GPT-4capacidades aprimoradas do e potencial para avanços inovadores.

Modelo de Mistura de Especialistas (MoE)

Para garantir custos razoáveis e ao mesmo tempo manter um desempenho excepcional, OpenAI implementou um modelo misto de especialistas (MoE) em GPT-4. Ao utilizar 16 especialistas no modelo, cada um consistindo em cerca de 111 bilhões de parâmetros para perceptrons multicamadas (MLP), OpenAI alocação de recursos efetivamente otimizada. Notavelmente, durante cada passagem direta, apenas dois especialistas são encaminhados, minimizando os requisitos computacionais sem comprometer os resultados. Esta abordagem inovadora demonstra OpenAIO compromisso da empresa em maximizar a eficiência e a relação custo-benefício em seus modelos.

Vazamento muito interessante e detalhado do GPT-4 arquitetura, com excelente análise do raciocínio por trás dela e suas implicações – por @dylan522p :https://t.co/eHE7VlGY5V

Um resumo sem paywall pode ser encontrado aqui: https://t.co/rLxw5s9ZDt
-Jan P. Harries (@jphme) 11 de julho de 2023

Algoritmo de Roteamento MoE Simplificado

Embora o modelo frequentemente explore algoritmos de roteamento avançados para selecionar especialistas para lidar com cada token, OpenAIabordagem da atual GPT-4 modelo é supostamente mais simples. O algoritmo de roteamento empregado pela IA é considerado relativamente simples, mas ainda assim eficaz. Aproximadamente 55 bilhões de parâmetros compartilhados de atenção facilitam a distribuição eficiente de tokens aos especialistas apropriados dentro do modelo.

Inferência eficiente

GPT-4O processo de inferência de mostra sua eficiência e capacidade computacional. Cada forward pass, dedicado à geração de um único token, utiliza aproximadamente 280 bilhões de parâmetros e 560 TFLOPs (tera operações de ponto flutuante por segundo). Isto contrasta fortemente com a imensa escala de GPT-4, com seus 1.8 trilhão de parâmetros e 3,700 TFLOPs por passagem direta em um modelo puramente denso. O uso eficiente dos recursos destaca OpenAIa dedicação da empresa para atingir o desempenho ideal sem requisitos computacionais excessivos.

Extenso conjunto de dados de treinamento

GPT-4 foi treinado em um conjunto de dados colossal que compreende aproximadamente 13 trilhões de tokens. É importante observar que esses tokens incluem tokens exclusivos e tokens que representam números de época. O processo de treinamento inclui duas épocas para dados baseados em texto e quatro épocas para dados baseados em código. OpenAI aproveitou milhões de linhas de dados de ajuste fino de instruções provenientes do ScaleAI e internamente para refinar o desempenho do modelo.

A fase de pré-treinamento GPT-4 empregou um comprimento de contexto de 8k. Posteriormente, o modelo passou por ajustes finos, resultando na versão 32k. Esta progressão baseia-se na fase de pré-treinamento, melhorando as capacidades do modelo e adaptando-o a tarefas específicas.

Dimensionamento com GPUs via paralelismo

OpenAI aproveitou o poder do paralelismo em GPT-4 para aproveitar todo o potencial de suas GPUs A100. Eles empregaram paralelismo tensor de 8 vias, que maximiza o processamento paralelo, pois é o limite do NVLink. Além disso, o paralelismo de pipeline de 15 vias foi utilizado para melhorar ainda mais o desempenho. Embora técnicas específicas como o ZeRo Stage 1 tenham sido provavelmente empregadas, a metodologia exata permanece não revelada.

Custo de Treinamento e Desafios de Utilização

Training GPT-4 foi um empreendimento extenso e que consumiu muitos recursos. OpenAI alocou aproximadamente 25,000 GPUs A100 durante um período de 90 a 100 dias, operando a uma taxa de utilização de aproximadamente 32% a 36% MFU (usado com mais frequência). O processo de treinamento incorreu em inúmeras falhas, exigindo reinícios frequentes dos pontos de verificação. Se estimado em US$ 1 por hora A100, o custos de treinamento somente para esta execução, totalizaria aproximadamente $ 63 milhões.

Trocas na mistura de especialistas

A implementação de um modelo misto de especialistas apresenta diversas compensações. No caso de GPT-4, OpenAI optou por 16 especialistas em vez de um número superior. Essa decisão reflete um equilíbrio entre alcançar resultados de perda superiores e garantir a generalização em várias tarefas. Mais especialistas podem apresentar desafios em termos de generalização e convergência de tarefas. OpenAIescolha de se exercitar cuidado no especialista seleção está alinhada com seu compromisso com um desempenho confiável e robusto.

Custo de inferência

Comparado com seu antecessor, o modelo Davinci de 175 bilhões de parâmetros, GPT-4o custo de inferência é aproximadamente três vezes maior. Esta discrepância pode ser atribuída a vários factores, incluindo os clusters maiores necessários para apoiar GPT-4 e a menor utilização alcançada durante a inferência. As estimativas indicam um custo aproximado de US$ 0.0049 centavos por 1,000 tokens para 128 GPUs A100 e US$ 0.0021 centavos por 1,000 tokens para 128 GPUs H100 ao inferir GPT-4 com 8k. Esses números pressupõem uma utilização decente e tamanhos de lote elevados, considerações cruciais para a otimização de custos.

Atenção Multiconsulta

OpenAI aproveita a atenção multi-query (MQA), uma técnica amplamente empregada na área, em GPT-4 também. Ao implementar MQA, o modelo requer apenas um cabeçote, reduzindo significativamente a capacidade de memória necessária para o cache de valor-chave (cache KV). Apesar desta otimização, deve-se notar que o lote de 32k GPT-4 não pode ser acomodado em GPUs A40 de 100 GB e 8k é limitado pelo tamanho máximo do lote.

Lotes Contínuos

Para encontrar um equilíbrio entre latência e custos de inferência, OpenAI incorpora tamanhos de lote variáveis e lotes contínuos em GPT-4. Esta abordagem adaptativa permite um processamento flexível e eficiente, otimizando a utilização de recursos e reduzindo a sobrecarga computacional.

GPT-4 introduz um codificador de visão separado ao lado do codificador de texto, apresentando atenção cruzada entre os dois. Esta arquitetura, reminiscente do Flamingo, adiciona parâmetros adicionais à já impressionante contagem de 1.8 trilhões de parâmetros do GPT-4. O modelo de visão passa por um ajuste fino separado usando aproximadamente 2 trilhões de tokens após a fase de pré-treinamento somente de texto. Esta capacidade de visão capacita agentes autônomos para ler páginas da web, transcrever imagens e interpretar conteúdo de vídeo – um recurso inestimável na era dos dados multimídia.

Decodificação especulativa

Um aspecto interessante de GPT-4A estratégia de inferência de é o possível uso de decodificação especulativa. Esta abordagem envolve empregar um sistema menor e mais rápido modelo para gerar previsões para vários tokens com antecedência. Esses tokens previstos são então alimentados em um modelo de “oráculo” maior como um único lote. Se o menor previsões do modelo alinhar com o acordo do modelo maior, vários tokens podem ser decodificados juntos. No entanto, se o modelo maior rejeitar os tokens previstos pelo modelo de rascunho, o restante do lote é descartado e a inferência continua apenas com o modelo maior. Essa abordagem permite uma decodificação eficiente enquanto potencialmente aceita sequências de probabilidade mais baixa. Vale a pena notar que esta especulação permanece não verificada neste momento.

Arquitetura de inferência

GPT-4O processo de inferência do opera em um cluster de 128 GPUs, distribuídas em vários data centers em diferentes locais. Esta infraestrutura emprega paralelismo de tensor de 8 vias e paralelismo de pipeline de 16 vias para maximizar a eficiência computacional. Cada nó, composto por 8 GPUs, acomoda aproximadamente 130 bilhões de parâmetros. Com um tamanho de modelo de 120 camadas, GPT-4 pode caber em 15 nós diferentes, possivelmente com menos camadas no primeiro nó devido à necessidade de calcular embeddings. Essas escolhas arquitetônicas facilitam a inferência de alto desempenho, demonstrando OpenAIO compromisso da empresa em ultrapassar os limites da eficiência computacional.

Tamanho e composição do conjunto de dados

GPT-4 foi treinado em impressionantes 13 trilhões de tokens, fornecendo um extenso corpus de texto para aprender. No entanto, nem todos os tokens podem ser contabilizados pelos conjuntos de dados conhecidos usados durante o treinamento. Embora conjuntos de dados como CommonCrawl e RefinedWeb contribuam com uma parte significativa do dados de treinamento, resta uma parte dos tokens que não são contabilizados, geralmente chamados de dados “secretos”.

Rumores e especulações

Surgiram especulações sobre a origem desses dados não divulgados. Um boato sugere que inclui conteúdo de plataformas populares como Twitter, Reddit e YouTube, destacando a influência potencial do conteúdo gerado pelo usuário na formação GPT-4base de conhecimento. Além disso, existem conjecturas em torno da inclusão de coleções expansivas como LibGen, um repositório de milhões de livros, e Sci-Hub, uma plataforma que fornece acesso a numerosos artigos científicos. A noção de que GPT-4 foi treinado em todo o GitHub também circulou entre os entusiastas de IA.

A opinião do repórter

Embora existam muitos rumores, é importante abordá-los com cautela. A formação de GPT-4 podem ter se beneficiado muito de um conjunto de dados especial composto de livros universitários. Este conjunto de dados, que abrange uma ampla gama de cursos e assuntos, poderia ter sido cuidadosamente montado à mão. Os livros didáticos universitários fornecem uma base de conhecimento estruturada e abrangente que pode ser usada com sucesso para treinar um modelo de linguagem e são facilmente conversíveis em arquivos de texto. A inclusão de tal conjunto de dados pode dar a impressão de que GPT-4 tem conhecimento em diversas áreas.

O Fascínio por GPT-4Conhecimento

Um aspecto intrigante GPT-4O treinamento do é a capacidade de demonstrar familiaridade com livros específicos e até mesmo lembrar identificadores exclusivos de plataformas como o Projeto Euler. Pesquisadores tentaram extrair seções memorizadas de livros de GPT-4 para obter insights sobre seu treinamento, alimentando ainda mais a curiosidade sobre o funcionamento interno do modelo. Estas descobertas destacam a surpreendente capacidade de GPT-4 para reter informações e destacar as capacidades impressionantes dos modelos de linguagem em larga escala.

A Versatilidade de GPT-4

O amplo espectro de tópicos e campos que GPT-4 aparentemente pode se envolver com mostra sua versatilidade. Seja respondendo a questões complexas da ciência da computação ou investigando debates filosóficos, GPT-4O treinamento do em um conjunto de dados diversificado o prepara para interagir com usuários de vários domínios. Esta versatilidade decorre da sua exposição a uma vasta gama de recursos textuais, tornando-o uma ferramenta valiosa para uma ampla gama de usuários.

Leia mais sobre IA:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.

Mais artigos

Damir Yalalov