08 de agosto de 2023

Alibaba apresenta modelo de linguagem Qwen-7B de código aberto

Publicado: 08 de agosto de 2023 às 10h54 Atualizado: 11 de agosto de 2023 às 10h58

Editado e verificado: 08 de agosto de 2023 às 10h54

O Alibaba revelou seu Large Language Model (LLM) de código aberto chamado Qwen-7B, marcando sua entrada inaugural no reino dos LLMs acessíveis ao público. Este modelo é construído sobre 7 bilhões de parâmetros.

Alibaba apresenta modelo de linguagem Qwen-7B de código aberto

Para contextualizar, o Qwen-7B passou por treinamento usando 2.2 trilhões de tokens. O tamanho do contexto definido durante esta fase de treinamento foi 2048, mas os usuários podem estendê-lo para um máximo de 8192 durante o teste. Por comparação, Llama-2, outro LLM, oferece um tamanho de contexto de 4096.

Os benchmarks são essenciais para avaliar o desempenho de tais modelos e, neste domínio, os desenvolvedores chineses afirmam que o Qwen-7B superou Llama-2. Uma métrica que se destaca é o benchmark de codificação Human-Eval, onde Qwen-7B pontua 24.4 em relação a Llama-2 é 12.8. No entanto, é prudente encarar estes números com alguma cautela. Alguns benchmarks indicam que o Qwen-7B supera não apenas o modelo básico de LLama-2-7B mas também o LLaMAVariante -2-13B. No entanto, quando confrontado com as versões refinadas do Llama-2, a margem de diferença torna-se mais estreita. Deve-se notar que a metodologia exata de treinamento do Qwen-7B não foi explicitamente detalhada por seus desenvolvedores.

Em funcionalidade paralela a LLaMa2-chat, Qwen apresentou uma versão centrada em chat chamada Qwen-7B-Chat. Este modelo é otimizado para interagir com os usuários e incorpora diversas ferramentas e APIs para aumentar sua capacidade de resposta.

Aqueles com inclinação para especificidades técnicas estariam interessados em saber que a base arquitetônica do Qwen-7B tem semelhança com LLaMA. No entanto, existem características distintas que diferenciam o Qwen-7B:

Emprega a incorporação desamarrada.
A incorporação posicional rotativa é utilizada.
Vieses são excluídos, com exceção de QKV em atenção.
RMSNorm é preferido sobre LayerNorm.
Em vez do ReLU padrão, o SwiGLU é incorporado.
A atenção instantânea foi introduzida para agilizar o processo de treinamento.
O modelo compreende 32 camadas, tem uma dimensão de incorporação de 4096 e acomoda 32 cabeças de atenção.

Em termos de licenciamento, Qwen-7B se alinha com Llama-2. Permite o uso comercial, mas com estipulação de volume de usuários. Enquanto Llama-2 define esse limite em 700 milhões de usuários ativos por mês, o limite do Qwen-7B é de 100 milhões.

Aqueles que procuram um exame aprofundado podem consultar o relatório técnico disponível no GitHub. Adicionalmente, uma demonstração de Qwen-7B, fornecido no idioma chinês, está acessível para os interessados em uma exploração prática dos recursos do modelo.

Leia mais sobre IA:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.

Mais artigos

Damir Yalalov

Hot Stories

Últimas notícias

Meson Network permite que mineradores de criptografia obtenham tokens por meio de mineração. AirdropProgramas de recompra estão chegando

by Alice Davidson

07 de maio de 2024

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais