AI Wiki Equipar
12 de Junho de 2023

Mais de 30 modelos de transformadores em IA: o que são e como funcionam

Nos últimos meses, vários modelos de Transformer surgiram na IA, cada um com nomes únicos e às vezes divertidos. No entanto, esses nomes podem não fornecer muitos insights sobre o que esses modelos realmente fazem. Este artigo tem como objetivo fornecer uma lista abrangente e direta dos modelos de Transformer mais populares. Ele classificará esses modelos e também apresentará importantes aspectos e inovações dentro da família Transformer. A lista principal cobrirá modelos treinados por meio de aprendizagem auto-supervisionada, como BERT ou GPT-3, bem como modelos que passam por treinamento adicional com envolvimento humano, como o InstructGPT modelo utilizado por ChatGPT.

Crédito: Metaverse Post (mpost.io)
Dicas Pro
Este guia é projetado para fornecer conhecimento abrangente e habilidades práticas em engenharia imediata para alunos iniciantes a avançados.
existem muitos cursos disponível para indivíduos que desejam aprender mais sobre IA e suas tecnologias relacionadas.
Dê uma olhada na 10+ principais aceleradores de IA que devem liderar o mercado em termos de desempenho.

O que são Transformers em IA?

Os transformadores são um tipo de modelo de aprendizado profundo que foi introduzido em um trabalho de pesquisa chamado “Atenção é tudo que você precisa” por pesquisadores do Google em 2017. Este artigo ganhou imenso reconhecimento, acumulando mais de 38,000 citações em apenas cinco anos.

A arquitetura original do Transformer é uma forma específica de modelos de codificador-decodificador que ganhou popularidade antes de sua introdução. Esses modelos se baseavam predominantemente em LSTM e outras variações de Redes Neurais Recorrentes (RNNs), sendo a atenção apenas um dos mecanismos utilizados. No entanto, o artigo do Transformer propôs uma ideia revolucionária de que a atenção poderia servir como o único mecanismo para estabelecer dependências entre entrada e saída.

O que são Transformers em IA?
Crédito: dominodatalab.com

No contexto dos Transformers, a entrada consiste em uma sequência de tokens, que podem ser palavras ou subpalavras no processamento de linguagem natural (PNL). Subpalavras são comumente empregadas em modelos de PNL para abordar a questão de palavras fora do vocabulário. A saída do codificador produz uma representação de dimensão fixa para cada token, juntamente com uma incorporação separada para toda a sequência. O decodificador pega a saída do codificador e gera uma sequência de tokens como saída.

Desde a publicação do artigo Transformer, modelos populares como BERT e GPT adotaram aspectos da arquitetura original, seja usando os componentes do codificador ou do decodificador. A principal semelhança entre esses modelos reside na arquitetura de camadas, que incorpora mecanismos de autoatenção e camadas de feed-forward. Nos Transformers, cada token de entrada percorre seu próprio caminho através das camadas, mantendo dependências diretas com todos os outros tokens na sequência de entrada. Este recurso exclusivo permite o cálculo paralelo e eficiente de representações contextuais de tokens, um recurso não viável com modelos sequenciais como RNNs.

Embora este artigo apenas aborde a superfície da arquitetura do Transformer, ele fornece uma visão geral de seus aspectos fundamentais. Para uma compreensão mais abrangente, recomendamos consultar o artigo de pesquisa original ou a postagem do The Illustrated Transformer.

O que são codificadores e decodificadores em IA?

Imagine que você tem dois modelos, um codificador e um decodificador, trabalhando juntos como uma equipe. O codificador pega uma entrada e a transforma em um vetor de comprimento fixo. Em seguida, o decodificador pega esse vetor e o transforma em uma sequência de saída. Esses modelos são treinados juntos para garantir que a saída corresponda à entrada o mais próximo possível.

Tanto o codificador quanto o decodificador tinham várias camadas. Cada camada no codificador tinha duas subcamadas: uma camada de auto-atenção com várias cabeças e uma rede simples de alimentação direta. A camada de auto-atenção ajuda cada token na entrada a entender os relacionamentos com todos os outros tokens. Essas subcamadas também possuem uma conexão residual e uma normalização de camada para tornar o processo de aprendizado mais suave.

O cabeçote múltiplo do decodificador camada de auto-atenção funciona um pouco diferente daquele no codificador. Ele mascara os tokens à direita do token em que está focando. Isso garante que o decodificador veja apenas os tokens que vêm antes daquele que está tentando prever. Essa atenção mascarada de várias cabeças ajuda o decodificador a gerar previsões precisas. Além disso, o decodificador inclui outra subcamada, que é uma camada de atenção multicabeçal sobre todas as saídas do codificador.

É importante observar que esses detalhes específicos foram modificados em diferentes variações do modelo Transformer. Modelos como BERT e GPT, por exemplo, são baseados no aspecto de codificador ou decodificador da arquitetura original.

O que são camadas de atenção na IA?

Na arquitetura do modelo que discutimos anteriormente, as camadas de atenção de várias cabeças são os elementos especiais que o tornam poderoso. Mas o que exatamente é atenção? Pense nisso como uma função que mapeia uma pergunta para um conjunto de informações e fornece uma saída. Cada token na entrada tem uma consulta, chave e valor associados a ele. A representação de saída de cada token é calculada tomando uma soma ponderada dos valores, onde o peso de cada valor é determinado por quão bem ele corresponde à consulta.

Os transformadores usam uma função de compatibilidade chamada produto de ponto escalado para calcular esses pesos. O interessante sobre a atenção em Transformers é que cada token passa por seu próprio caminho de cálculo, permitindo a computação paralela de todos os tokens na sequência de entrada. São simplesmente vários blocos de atenção que calculam independentemente as representações para cada token. Essas representações são então combinadas para criar a representação final do token.

Em comparação com outros tipos de redes, como recorrentes e redes convolucionais, as camadas de atenção têm algumas vantagens. Eles são computacionalmente eficientes, o que significa que podem processar informações rapidamente. Eles também têm maior conectividade, o que é útil para capturar relacionamentos de longo prazo em sequências.

O que são modelos de ajuste fino em IA?

modelos de fundação são modelos poderosos que são treinados em uma grande quantidade de dados gerais. Eles podem então ser adaptados ou ajustados para tarefas específicas, treinando-os em um conjunto menor de dados específicos do alvo. Essa abordagem, popularizada pelo Papel de BERT, levou ao domínio de modelos baseados em Transformer em tarefas de aprendizado de máquina relacionadas à linguagem.

No caso de modelos como BERT, eles produzem representações de tokens de entrada, mas não realizam tarefas específicas por conta própria. Para torná-los úteis, adicionar camadas neurais são adicionados no topo e o modelo é treinado de ponta a ponta, um processo conhecido como ajuste fino. No entanto, com modelos generativos como GPT, a abordagem é um pouco diferente. GPT é um modelo de linguagem decodificadora treinado para prever a próxima palavra em uma frase. Ao treinar em grandes quantidades de dados da web, GPT pode gerar resultados razoáveis ​​com base em consultas ou prompts de entrada.

Para fazer GPT mais útil, OpenAI pesquisadores desenvolveram InstruirGPT, que é treinado para seguir instruções humanas. Isto é conseguido através do ajuste fino GPT usando dados rotulados por humanos de várias tarefas. InstruirGPT é capaz de executar uma ampla gama de tarefas e é usado por mecanismos populares como ChatGPT.

O ajuste fino também pode ser usado para criar variantes de modelos de fundação otimizados para propósitos específicos além da modelagem de linguagem. Por exemplo, existem modelos ajustados para tarefas relacionadas à semântica, como classificação de texto e recuperação de pesquisa. Além disso, os codificadores do transformador foram ajustados com sucesso em multitarefa estruturas de aprendizagem para executar várias tarefas semânticas usando um único modelo compartilhado.

Hoje, o ajuste fino é usado para criar versões de modelos de fundação que podem ser usados ​​por um grande número de usuários. O processo envolve a geração de respostas para entrada prompts e ter humanos classificando os resultados. Esta classificação é usada para treinar um modelo de recompensa, que atribui pontuações a cada saída. Aprendizagem por reforço com feedback humano é então empregado para treinar ainda mais o modelo.

Por que os Transformers são o futuro da IA?

Os transformadores, um tipo de modelo poderoso, foram demonstrados pela primeira vez no campo da tradução de idiomas. No entanto, os pesquisadores perceberam rapidamente que os Transformers poderiam ser usados ​​para várias tarefas relacionadas ao idioma, treinando-os em uma grande quantidade de texto não rotulado e, em seguida, ajustando-os em um conjunto menor de dados rotulados. Essa abordagem permitiu que os Transformers capturassem conhecimento significativo sobre a linguagem.

A arquitetura do Transformer, originalmente projetada para tarefas de linguagem, também foi aplicada a outros aplicativos como gerando imagens, áudio, música e até ações. Isso fez dos Transformers um componente-chave no campo da IA ​​generativa, que muda vários aspectos da sociedade.

A disponibilidade de ferramentas e frameworks como PyTorch e TensorFlow desempenhou um papel crucial na adoção generalizada de modelos Transformer. Empresas como a Huggingface construíram seus negócios em torno da ideia de comercialização de bibliotecas Transformer de código aberto e hardware especializado como Hopper Tensor Cores da NVIDIA acelerou ainda mais o treinamento e a velocidade de inferência desses modelos.

Uma aplicação notável de Transformers é ChatGPT, um chatbot lançado por OpenAI. Tornou-se incrivelmente popular, atingindo milhões de usuários em um curto período. OpenAI também anunciou o lançamento de GPT-4, uma versão mais poderosa capaz de alcançar desempenho semelhante ao humano em tarefas como exames médicos e jurídicos.

O impacto dos Transformers no campo da IA ​​e sua ampla gama de aplicações é inegável. Eles têm transformou o caminho abordamos tarefas relacionadas ao idioma e estamos abrindo caminho para novos avanços na IA generativa.

3 tipos de arquiteturas de pré-treinamento

A arquitetura do Transformer, originalmente composta por um Codificador e um Decodificador, evoluiu para incluir diferentes variações baseadas em necessidades específicas. Vamos dividir essas variações em termos simples.

  1. Pré-treinamento do Codificador: esses modelos se concentram na compreensão de frases ou passagens completas. Durante o pré-treinamento, o codificador é usado para reconstruir tokens mascarados na sentença de entrada. Isso ajuda o modelo a aprender a entender o contexto geral. Esses modelos são úteis para tarefas como classificação de texto, implicação e resposta a perguntas extrativas.
  2. Pré-treinamento do decodificador: os modelos decodificadores são treinados para gerar o próximo token com base na sequência anterior de tokens. Eles são conhecidos como modelos de linguagem auto-regressivos. As camadas de autoatenção no decodificador só podem acessar tokens antes de um determinado token na frase. Esses modelos são ideais para tarefas que envolvem geração de texto.
  3. Pré-treinamento do Transformer (Codificador-Decodificador): esta variação combina os componentes codificador e decodificador. As camadas de autoatenção do codificador podem acessar todos os tokens de entrada, enquanto as camadas de autoatenção do decodificador podem acessar apenas tokens antes de um determinado token. Essa arquitetura permite que o decodificador use as representações aprendidas pelo codificador. Os modelos de codificador-decodificador são adequados para tarefas como resumo, tradução ou resposta a perguntas generativas.

Os objetivos de pré-treinamento podem envolver a redução de ruído ou modelagem de linguagem causal. Esses objetivos são mais complexos para modelos de codificador-decodificador em comparação com modelos somente codificador ou somente decodificador. A arquitetura do Transformer tem diferentes variações dependendo do foco do modelo. Quer seja entender frases completas, gerar texto ou combinar ambos para várias tarefas, o Transformers oferece flexibilidade para lidar com diferentes desafios relacionados ao idioma.

8 tipos de tarefas para modelos pré-treinados

Ao treinar um modelo, precisamos dar a ele uma tarefa ou objetivo para aprender. Existem várias tarefas no processamento de linguagem natural (NLP) que podem ser usadas para modelos de pré-treinamento. Vamos detalhar algumas dessas tarefas em termos simples:

  1. Modelagem de Linguagem (LM): O modelo prevê o próximo token em uma frase. Aprende a entender o contexto e a gerar frases coerentes.
  2. Modelagem de Linguagem Causal: O modelo prevê o próximo token em uma sequência de texto, seguindo uma ordem da esquerda para a direita. É como um modelo de narrativa que gera frases uma palavra por vez.
  3. Modelagem de linguagem de prefixo: O modelo separa uma seção de 'prefixo' da sequência principal. Ele pode atender a qualquer token dentro do prefixo e, em seguida, gerar o restante da sequência autorregressivamente.
  4. Modelagem de linguagem mascarada (MLM): Alguns tokens nas sentenças de entrada são mascarados e o modelo prevê os tokens ausentes com base no contexto circundante. Ele aprende a preencher os espaços em branco.
  5. Permuted Language Modeling (PLM): O modelo prevê o próximo token com base em uma permutação aleatória da sequência de entrada. Ele aprende a lidar com diferentes ordens de tokens.
  6. Denoising Autoencoder (DAE): O modelo usa uma entrada parcialmente corrompida e visa recuperar a entrada original sem distorções. Ele aprende a lidar com ruídos ou partes ausentes do texto.
  7. Detecção de Token Substituído (RTD): O modelo detecta se um token vem do texto original ou de uma versão gerada. Ele aprende a identificar tokens substituídos ou manipulados.
  8. Previsão da Próxima Sentença (NSP): O modelo aprende a distinguir se duas sentenças de entrada são segmentos contínuos dos dados de treinamento. Ele entende a relação entre as frases.

Essas tarefas ajudam o modelo a aprender a estrutura e o significado da linguagem. Ao pré-treinar nessas tarefas, os modelos obtêm uma boa compreensão da linguagem antes de serem ajustados para aplicativos específicos.

Os 30+ principais transformadores em IA

NomeArquitetura pré-treinamentoTarefaAplicaçãoDesenvolvido por
ALBERTencoderMLM/NSPO mesmo que BERTGoogle
AlpacaDecoderLMTarefas de geração e classificação de textoStanford
AlfaFoldencoderPrevisão de dobramento de proteínasDobramento de proteínasDeepmind
Assistente Antrópico (veja também)DecoderLMDo diálogo geral ao assistente de código.Antrópico
BARTCodificador/DecodificadorDAETarefas de geração e compreensão de textoFacebook
BERTencoderMLM/NSPCompreensão de linguagem e resposta a perguntasGoogle
Blender Bot 3DecoderLMTarefas de geração e compreensão de textoFacebook
BLOOMDecoderLMTarefas de geração e compreensão de textoBig Science / Huggingface
ChatGPTDecoderLMAgentes de diálogoOpenAI
ChinchilaDecoderLMTarefas de geração e compreensão de textoDeepmind
CLIPencoderClassificação de imagem/objetoOpenAI
CTRLDecoderGeração de texto controlávelSalesforce
DALL-EDecoderprevisão de legendaTexto para imagemOpenAI
DALL-E-2Codificador/Decodificadorprevisão de legendaTexto para imagemOpenAI
DeBERtaDecoderMLMO mesmo que BERTMicrosoft
Transformadores de DecisãoDecoderPróxima previsão de açãoRL geral (tarefas de aprendizado por reforço)Google/UC Berkeley/FAIR
DialoGPTDecoderLMGeração de texto nas configurações de diálogoMicrosoft
DestilBERTencoderMLM/NSPCompreensão de linguagem e resposta a perguntasAbraçando
DQ-BARTCodificador/DecodificadorDAEGeração e compreensão do textoAmazon
BonecaDecoderLMTarefas de geração e classificação de textoDatabricks, Inc.
ERNIEencoderMLMTarefas relacionadas intensivas em conhecimentoVárias instituições chinesas
flamingoDecoderprevisão de legendaTexto para imagemDeepmind
GalacticaDecoderLMControle de qualidade científico, raciocínio matemático, resumo, geração de documentos, previsão de propriedades moleculares e extração de entidades.Meta
DESLIZARencoderprevisão de legendaTexto para imagemOpenAI
GPT-3.5DecoderLMDiálogo e linguagem geralOpenAI
GPTInstruirDecoderLMDiálogo intensivo em conhecimento ou tarefas de linguagemOpenAI
HTMLCodificador/DecodificadorDAEModelo de linguagem que permite prompting HTML estruturadoFacebook
ImagemT5previsão de legendaTexto para imagemGoogle
LAMDADecoderLMModelagem geral de linguagemGoogle
LLaMADecoderLMRaciocínio de senso comum, resposta a perguntas, geração de código e compreensão de leitura.Meta
MinervaDecoderLMRaciocínio matemáticoGoogle
palmaDecoderLMCompreensão e geração de linguagemGoogle
RobertoencoderMLMCompreensão de linguagem e resposta a perguntasUW/Google
PardalDecoderLMAgentes de diálogo e aplicativos gerais de geração de linguagem, como perguntas e respostasDeepmind
Difusão estávelCodificador/DecodificadorPrevisão de LegendaTexto para imagemLMU Munique + Stability.ai + Eleuther.ai
VicunaDecoderLMAgentes de diálogoUC Berkeley, CMU, Stanford, UC San Diego e MBZUAI

Perguntas Frequentes:

Transformadores em IA são um tipo de arquitetura de aprendizagem profunda que mudou o processamento de linguagem natural e outras tarefas. Eles usam mecanismos de auto-atenção para capturar as relações entre as palavras em uma frase, permitindo-lhes entender e gerar texto semelhante ao humano.

Codificadores e decodificadores são componentes comumente usados ​​em modelos sequência a sequência. Os codificadores processam dados de entrada, como texto ou imagens, e os convertem em uma representação compactada, enquanto os decodificadores geram dados de saída com base na representação codificada, permitindo tarefas como tradução de idiomas ou legendas de imagens.

Camadas de atenção são componentes usados ​​em redes neurais, particularmente em modelos Transformer. Eles permitem que o modelo se concentre seletivamente em diferentes partes da sequência de entrada, atribuindo pesos a cada elemento com base em sua relevância, permitindo capturar dependências e relacionamentos entre os elementos de maneira eficaz.

Modelos ajustados referem-se a modelos pré-treinados que foram treinados em uma tarefa ou conjunto de dados específico para melhorar seu desempenho e adaptá-los aos requisitos específicos dessa tarefa. Esse processo de ajuste fino envolve o ajuste dos parâmetros do modelo para otimizar suas previsões e torná-lo mais especializado para a tarefa de destino.

Os transformadores são considerados o futuro da IA ​​porque demonstraram desempenho excepcional em uma ampla gama de tarefas, incluindo processamento de linguagem natural, geração de imagens e muito mais. Sua capacidade de capturar dependências de longo alcance e processar dados sequenciais com eficiência os torna altamente adaptáveis ​​e eficazes para vários aplicativos, abrindo caminho para avanços na IA generativa e revolucionando muitos aspectos da sociedade.

Os modelos de transformadores mais famosos em IA incluem BERT (Representações de codificador bidirecional de transformadores), GPT (Transformador generativo pré-treinado) e T5 (Transformador de transferência de texto para texto). Esses modelos alcançaram resultados notáveis ​​em diversas tarefas de processamento de linguagem natural e ganharam popularidade significativa na comunidade de pesquisa em IA.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

O frenesi DOGE: analisando o recente aumento de valor do Dogecoin (DOGE)

A indústria de criptomoedas está se expandindo rapidamente e as moedas meme estão se preparando para um aumento significativo. Dogecoin (DOGE), ...

Saber Mais

A evolução do conteúdo gerado por IA no metaverso

O surgimento de conteúdo generativo de IA é um dos desenvolvimentos mais fascinantes dentro do ambiente virtual...

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (22-26.04)
Digerir O negócio Mercados Equipar
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (22-26.04)
26 de abril de 2024
Vitalik Buterin comenta sobre centralização do PoW, observa que era um estágio temporário até o PoS
Relatório de notícias Equipar
Vitalik Buterin comenta sobre centralização do PoW, observa que era um estágio temporário até o PoS
26 de abril de 2024
Offchain Labs revela descoberta de duas vulnerabilidades críticas nas provas de fraude do OP Stack do Optimism
Relatório de notícias Software Equipar
Offchain Labs revela descoberta de duas vulnerabilidades críticas nas provas de fraude do OP Stack do Optimism
26 de abril de 2024
Mercado aberto da Dymension para aumentar a liquidez da RollApps eIBC é lançado na rede principal
Relatório de notícias Equipar
Mercado aberto da Dymension para aumentar a liquidez da RollApps eIBC é lançado na rede principal 
26 de abril de 2024
CRYPTOMERIA LABS PTE. LTDA.