Mercados Relatório de notícias
08 de agosto de 2023

Alibaba apresenta modelo de linguagem Qwen-7B de código aberto

O Alibaba revelou seu Large Language Model (LLM) de código aberto chamado Qwen-7B, marcando sua entrada inaugural no reino dos LLMs acessíveis ao público. Este modelo é construído sobre 7 bilhões de parâmetros.

Alibaba apresenta modelo de linguagem Qwen-7B de código aberto

Para contextualizar, o Qwen-7B passou por treinamento usando 2.2 trilhões de tokens. O tamanho do contexto definido durante esta fase de treinamento foi 2048, mas os usuários podem estendê-lo para um máximo de 8192 durante o teste. Por comparação, Llama-2, outro LLM, oferece um tamanho de contexto de 4096.

Os benchmarks são essenciais para avaliar o desempenho de tais modelos e, neste domínio, os desenvolvedores chineses afirmam que o Qwen-7B superou Llama-2. Uma métrica que se destaca é o benchmark de codificação Human-Eval, onde Qwen-7B pontua 24.4 em relação a Llama-2 é 12.8. No entanto, é prudente encarar estes números com alguma cautela. Alguns benchmarks indicam que o Qwen-7B supera não apenas o modelo básico de LLama-2-7B mas também o LLaMAVariante -2-13B. No entanto, quando confrontado com as versões refinadas do Llama-2, a margem de diferença torna-se mais estreita. Deve-se notar que a metodologia exata de treinamento do Qwen-7B não foi explicitamente detalhada por seus desenvolvedores.

Em funcionalidade paralela a LLaMa2-chat, Qwen apresentou uma versão centrada em chat chamada Qwen-7B-Chat. Este modelo é otimizado para interagir com os usuários e incorpora diversas ferramentas e APIs para aumentar sua capacidade de resposta.

Aqueles com inclinação para especificidades técnicas estariam interessados ​​em saber que a base arquitetônica do Qwen-7B tem semelhança com LLaMA. No entanto, existem características distintas que diferenciam o Qwen-7B:

  1. Emprega a incorporação desamarrada.
  2. A incorporação posicional rotativa é utilizada.
  3. Vieses são excluídos, com exceção de QKV em atenção.
  4. RMSNorm é preferido sobre LayerNorm.
  5. Em vez do ReLU padrão, o SwiGLU é incorporado.
  6. A atenção instantânea foi introduzida para agilizar o processo de treinamento.
  7. O modelo compreende 32 camadas, tem uma dimensão de incorporação de 4096 e acomoda 32 cabeças de atenção.

Em termos de licenciamento, Qwen-7B se alinha com Llama-2. Permite o uso comercial, mas com estipulação de volume de usuários. Enquanto Llama-2 define esse limite em 700 milhões de usuários ativos por mês, o limite do Qwen-7B é de 100 milhões.

Aqueles que procuram um exame aprofundado podem consultar o relatório técnico disponível no GitHub. Adicionalmente, uma demonstração de Qwen-7B, fornecido no idioma chinês, está acessível para os interessados ​​em uma exploração prática dos recursos do modelo.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories

Descubra as Crypto Whales: quem é quem no mercado

by Viktoria Palchik
07 de maio de 2024
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Por dentro dos memes de Wall Street (WSM): revelando as manchetes
O negócio Mercados Histórias e resenhas Equipar
Por dentro dos memes de Wall Street (WSM): revelando as manchetes
7 de maio de 2024
Descubra as Crypto Whales: quem é quem no mercado
O negócio Mercados Histórias e resenhas Equipar
Descubra as Crypto Whales: quem é quem no mercado
7 de maio de 2024
Orbiter Finance faz parceria com Bitcoin Layer 2 Zulu Network e implanta na Lwazi Testnet
O negócio Relatório de notícias Equipar
Orbiter Finance faz parceria com Bitcoin Layer 2 Zulu Network e implanta na Lwazi Testnet 
7 de maio de 2024
Crypto Exchange Bybit integra USDe da Ethena Labs como ativo colateral, permite pares de negociação BTC-USDe e ETH-USDe
Mercados Relatório de notícias Equipar
Crypto Exchange Bybit integra USDe da Ethena Labs como ativo colateral, permite pares de negociação BTC-USDe e ETH-USDe
7 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.