15 de março de 2023

Facebook desenvolve um novo método para dobrar o desempenho dos transformadores de IA

Publicado: 15 de março de 2023 às 4h Atualizado: 00 de março de 15 às 2023h

Em Breve

O Facebook desenvolveu um novo método para dobrar o desempenho dos transformadores de IA com base na arquitetura do transformador.

O novo método encontra os patches mais semelhantes nas lacunas entre o processamento de diferentes blocos e os combina para reduzir a complexidade computacional.

O Facebook desenvolveu um Novo método para dobrar o desempenho dos transformadores AI. o método é baseado na arquitetura do transformador e é projetado especificamente para textos longos, como livros, artigos e blogs. O objetivo do novo transformador AI é melhorar o desempenho de modelos baseados em transformador em texto longo, tornando-os mais eficientes e eficazes no tratamento de sequências longas. Os resultados do transformador AI são muito promissores, e este novo método tem a chance de ajudar a melhorar o desempenho de modelos baseados em transformadores em uma variedade de tarefas.

Espera-se que esse novo método tenha um impacto significativo nas tarefas de processamento de linguagem natural, como tradução de idiomas, resumo e sistemas de resposta a perguntas. Espera-se também que leve ao desenvolvimento de modelos de IA mais sofisticados que possam lidar com textos mais longos e complexos.

O Facebook desenvolveu um novo método para dobrar o desempenho dos transformadores de IA

Para processar a imagem, os transformadores modernos a cortam em pedaços (geralmente quadrados: veja o gif abaixo) e então operam em representações dessas partículas, cada uma das quais é representada por um “token”. Os transformadores, como sabemos, funcionam mais devagar quanto mais dessas peças simbólicas houver (isso se aplica tanto a textos quanto a imagens), e o transformador mais comum tem uma relação quadrática. Ou seja, quanto mais tokens são adicionados, mais lento o processamento se torna. Para resolver esse problema, os pesquisadores propuseram várias técnicas para reduzir o número de tokens necessários para o processamento de imagens, como agrupamento hierárquico e adaptativo. Esses métodos visam manter a qualidade da saída, minimizando o custo computacional.

O novo método encontra os patches mais semelhantes nas lacunas entre o processamento de diferentes blocos e os combina para reduzir a complexidade computacional. O compartilhamento de tokens mesclados é um hiperparâmetro; quanto maior, menor a qualidade, mas também maior a aceleração. Experimentos mostram que é possível mesclar aproximadamente 40% dos tokens com uma perda de qualidade de 0.1-0.4% e obter aceleração dupla (consumindo assim menos memória). Este novo método é uma solução promissora para reduzir a complexidade computacional do processamento de imagens e pode permitir um processamento mais rápido e eficiente sem comprometer a qualidade da saída final.

Quando visualizamos quais patches mesclamos, podemos ver que eles estão 1) próximos um do outro e 2) descrevem o mesmo objeto (veja áreas da mesma cor no GIF). Ou seja, nenhuma informação significativa é perdida; o objeto permanece “no campo de visão” do modelo. Quanto mais tarde isso for aplicado no transformador, mais tokens serão mesclados (já que são representações de nível superior que descrevem bem o conteúdo da imagem).

Essas abordagens de engenharia baseadas na engenhosidade e na compreensão de como algo funciona parecem muito atraentes. Além disso, os desenvolvedores do Meta prometem trazer mais para o StableDiffusion para acelerar as coisas lá também. É incrível que, como os transformadores estão por toda parte, esses truques possam ser implementados rapidamente em uma ampla variedade de modelos. Isso mostra o potencial das soluções de engenharia para ter um amplo impacto em vários setores. Será interessante ver como esses avanços na modelos de transformador continuará a evoluir e melhorar com o tempo.

Meta AI e Paperswithcode lançaram o primeiro modelo 120B Galactica treinado em textos científicos, permitindo previsões mais precisas e rápidas. O objetivo da Galactica é ajudar os pesquisadores a separar o importante do irrelevante.

Leia mais notícias relacionadas:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.

Mais artigos

Damir Yalalov

Hot Stories

Últimas notícias

Junte-se à nossa comunidade tecnológica inovadora

Saiba Mais

Saiba mais

O negócio Relatório de notícias Equipar

Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM

by Alice Davidson

3 de maio de 2024

Mercados Relatório de notícias Equipar

Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base

by Alice Davidson

3 de maio de 2024

Mercados Relatório de notícias Equipar

Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2

by Alice Davidson

3 de maio de 2024

O negócio Relatório de notícias Equipar

CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas

by Alice Davidson

3 de maio de 2024

Facebook desenvolve um novo método para dobrar o desempenho dos transformadores de IA

Aviso Legal

Sobre o autor

Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM

Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base

Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2

CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas

Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM

Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base

Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2

CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ