FLM-101B: um modelo de linguagem super econômico na escala 101B compete com os principais modelos de IA
Em Breve
O LLM chinês, LM-101B, pode ser treinado com um orçamento de US$ 100 mil, alcançando desempenho comparável a modelos bem conhecidos como GPT-3 e GLM-130B.
Pesquisadores chineses revelaram um novo LLM, o FLM-101B, um LLM apenas para decodificador com notáveis 101 bilhões de parâmetros. Este desenvolvimento fornece uma alternativa econômica para pesquisa e aplicações práticas.
Relacionado: Os custos de treinamento do modelo de IA devem aumentar de US$ 100 milhões para US$ 500 milhões até 2030 |
O que faz o FLM-101B se destacar é o seu desempenho excepcional alcançado com um orçamento relativamente modesto. Embora seja bem sabido que treinar LLMs do zero pode exigir investimentos astronômicos, os criadores do FLM-101B mostraram que é possível treinar um modelo com 101 bilhões de parâmetros usando apenas um orçamento de US$ 100 mil.
Os resultados experimentais são nada menos que impressionantes. O FLM-101B demonstrou níveis de desempenho comparáveis aos estabelecidos e com uso intensivo de recursos modelos como GPT-3 e GLM-130B. Esta comparação destaca o enorme potencial deste modelo rentável, particularmente em benchmarks de QI com contextos complexos não presentes nos dados de formação.
Num movimento que sublinha o seu compromisso com o avanço da investigação e desenvolvimento da IA, os criadores do FLM-101B tornaram este modelo de código aberto. Pesquisadores e desenvolvedores em todo o mundo agora podem acessar e aproveitar este LLM em escala 101B para diversas aplicações, abrangendo os idiomas chinês e inglês.
O modelo FLM-101B emprega uma abordagem de treinamento exclusiva. Ele acumula rapidamente conhecimento de um modelo menor de 16 bilhões de parâmetros nos estágios iniciais de treinamento e aumenta progressivamente até 101 bilhões de parâmetros. Esta abordagem incremental reduz significativamente os custos de formação, tornando-a financeiramente viável para uma gama mais ampla de projetos.
Um recurso de destaque do FLM-101B é o suporte para expansão eficiente do tamanho da janela durante a inferência. Isto é conseguido através do uso da incorporação de posição rotativa xPos, permitindo que o modelo lide com um contexto mais amplo, melhorando sua adaptabilidade e usabilidade.
O FLM-101B foi treinado em um cluster de 24 servidores GPU DGX-A800 em menos de 26 dias. Este feito impressionante ressalta a escalabilidade do modelo e a utilização eficiente de recursos. A base de código de treinamento do modelo, adaptada do Megatron-LM, estará disponível em breve como código aberto, fornecendo informações valiosas para a comunidade de IA.
Os criadores do FLM-101B reconhecem possíveis limitações, incluindo a exposição do modelo a exemplos inseguros no corpus de treinamento devido à natureza aberta do conjunto de dados. Esta advertência serve como um lembrete da importância do uso responsável da IA e moderação de conteúdo.
Embora o FLM-101B tenha alcançado resultados notáveis, os criadores reconhecem áreas para melhoria. O processo de inferência do modelo, embora poderoso, ainda não está totalmente otimizado, levando a um maior uso de recursos e velocidade reduzida. No entanto, estão em andamento planos para introduzir Flash Attention na inferência, abordando essa limitação.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.