Facebook desenvolve um novo método para dobrar o desempenho dos transformadores de IA
Em Breve
O Facebook desenvolveu um novo método para dobrar o desempenho dos transformadores de IA com base na arquitetura do transformador.
O novo método encontra os patches mais semelhantes nas lacunas entre o processamento de diferentes blocos e os combina para reduzir a complexidade computacional.
O Facebook desenvolveu um Novo método para dobrar o desempenho dos transformadores AI. o método é baseado na arquitetura do transformador e é projetado especificamente para textos longos, como livros, artigos e blogs. O objetivo do novo transformador AI é melhorar o desempenho de modelos baseados em transformador em texto longo, tornando-os mais eficientes e eficazes no tratamento de sequências longas. Os resultados do transformador AI são muito promissores, e este novo método tem a chance de ajudar a melhorar o desempenho de modelos baseados em transformadores em uma variedade de tarefas.
Espera-se que esse novo método tenha um impacto significativo nas tarefas de processamento de linguagem natural, como tradução de idiomas, resumo e sistemas de resposta a perguntas. Espera-se também que leve ao desenvolvimento de modelos de IA mais sofisticados que possam lidar com textos mais longos e complexos.
Para processar a imagem, os transformadores modernos a cortam em pedaços (geralmente quadrados: veja o gif abaixo) e então operam em representações dessas partículas, cada uma das quais é representada por um “token”. Os transformadores, como sabemos, funcionam mais devagar quanto mais dessas peças simbólicas houver (isso se aplica tanto a textos quanto a imagens), e o transformador mais comum tem uma relação quadrática. Ou seja, quanto mais tokens são adicionados, mais lento o processamento se torna. Para resolver esse problema, os pesquisadores propuseram várias técnicas para reduzir o número de tokens necessários para o processamento de imagens, como agrupamento hierárquico e adaptativo. Esses métodos visam manter a qualidade da saída, minimizando o custo computacional.
O novo método encontra os patches mais semelhantes nas lacunas entre o processamento de diferentes blocos e os combina para reduzir a complexidade computacional. O compartilhamento de tokens mesclados é um hiperparâmetro; quanto maior, menor a qualidade, mas também maior a aceleração. Experimentos mostram que é possível mesclar aproximadamente 40% dos tokens com uma perda de qualidade de 0.1-0.4% e obter aceleração dupla (consumindo assim menos memória). Este novo método é uma solução promissora para reduzir a complexidade computacional do processamento de imagens e pode permitir um processamento mais rápido e eficiente sem comprometer a qualidade da saída final.
Essas abordagens de engenharia baseadas na engenhosidade e na compreensão de como algo funciona parecem muito atraentes. Além disso, os desenvolvedores do Meta prometem trazer mais para o StableDiffusion para acelerar as coisas lá também. É incrível que, como os transformadores estão por toda parte, esses truques possam ser implementados rapidamente em uma ampla variedade de modelos. Isso mostra o potencial das soluções de engenharia para ter um amplo impacto em vários setores. Será interessante ver como esses avanços na modelos de transformador continuará a evoluir e melhorar com o tempo.
- Meta AI e Paperswithcode lançaram o primeiro modelo 120B Galactica treinado em textos científicos, permitindo previsões mais precisas e rápidas. O objetivo da Galactica é ajudar os pesquisadores a separar o importante do irrelevante.
Leia mais notícias relacionadas:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.