Relatório de notícias Equipar
12 de Setembro de 2023

FLM-101B: um modelo de linguagem super econômico na escala 101B compete com os principais modelos de IA

Em Breve

O LLM chinês, LM-101B, pode ser treinado com um orçamento de US$ 100 mil, alcançando desempenho comparável a modelos bem conhecidos como GPT-3 e GLM-130B.

Pesquisadores chineses revelaram um novo LLM, o FLM-101B, um LLM apenas para decodificador com notáveis ​​101 bilhões de parâmetros. Este desenvolvimento fornece uma alternativa econômica para pesquisa e aplicações práticas.

FLM-101B: um modelo de linguagem super econômico na escala 101B compete com os principais modelos de IA
Relacionado: Os custos de treinamento do modelo de IA devem aumentar de US$ 100 milhões para US$ 500 milhões até 2030

O que faz o FLM-101B se destacar é o seu desempenho excepcional alcançado com um orçamento relativamente modesto. Embora seja bem sabido que treinar LLMs do zero pode exigir investimentos astronômicos, os criadores do FLM-101B mostraram que é possível treinar um modelo com 101 bilhões de parâmetros usando apenas um orçamento de US$ 100 mil.

Os resultados experimentais são nada menos que impressionantes. O FLM-101B demonstrou níveis de desempenho comparáveis ​​aos estabelecidos e com uso intensivo de recursos modelos como GPT-3 e GLM-130B. Esta comparação destaca o enorme potencial deste modelo rentável, particularmente em benchmarks de QI com contextos complexos não presentes nos dados de formação.

Num movimento que sublinha o seu compromisso com o avanço da investigação e desenvolvimento da IA, os criadores do FLM-101B tornaram este modelo de código aberto. Pesquisadores e desenvolvedores em todo o mundo agora podem acessar e aproveitar este LLM em escala 101B para diversas aplicações, abrangendo os idiomas chinês e inglês.

O modelo FLM-101B emprega uma abordagem de treinamento exclusiva. Ele acumula rapidamente conhecimento de um modelo menor de 16 bilhões de parâmetros nos estágios iniciais de treinamento e aumenta progressivamente até 101 bilhões de parâmetros. Esta abordagem incremental reduz significativamente os custos de formação, tornando-a financeiramente viável para uma gama mais ampla de projetos.

Um recurso de destaque do FLM-101B é o suporte para expansão eficiente do tamanho da janela durante a inferência. Isto é conseguido através do uso da incorporação de posição rotativa xPos, permitindo que o modelo lide com um contexto mais amplo, melhorando sua adaptabilidade e usabilidade.

O FLM-101B foi treinado em um cluster de 24 servidores GPU DGX-A800 em menos de 26 dias. Este feito impressionante ressalta a escalabilidade do modelo e a utilização eficiente de recursos. A base de código de treinamento do modelo, adaptada do Megatron-LM, estará disponível em breve como código aberto, fornecendo informações valiosas para a comunidade de IA.

Os criadores do FLM-101B reconhecem possíveis limitações, incluindo a exposição do modelo a exemplos inseguros no corpus de treinamento devido à natureza aberta do conjunto de dados. Esta advertência serve como um lembrete da importância do uso responsável da IA ​​e moderação de conteúdo.

Embora o FLM-101B tenha alcançado resultados notáveis, os criadores reconhecem áreas para melhoria. O processo de inferência do modelo, embora poderoso, ainda não está totalmente otimizado, levando a um maior uso de recursos e velocidade reduzida. No entanto, estão em andamento planos para introduzir Flash Attention na inferência, abordando essa limitação.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM
O negócio Relatório de notícias Equipar
Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM
3 de maio de 2024
Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base
Mercados Relatório de notícias Equipar
Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base
3 de maio de 2024
Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2
Mercados Relatório de notícias Equipar
Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2
3 de maio de 2024
CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas
O negócio Relatório de notícias Equipar
CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas
3 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.