Marchés Rapport de nouvelles
08 août 2023

Alibaba présente le modèle de langage Open Source Qwen-7B

Alibaba a dévoilé son Large Language Model (LLM) open-source nommé Qwen-7B, marquant leur entrée inaugurale dans le domaine des LLM accessibles au public. Ce modèle est construit sur 7 milliards de paramètres.

Alibaba présente le modèle de langage Open Source Qwen-7B

Pour rappel, Qwen-7B a suivi une formation utilisant 2.2 billions de jetons. La taille du contexte définie au cours de cette phase de formation était de 2048 8192, tandis que les utilisateurs peuvent l'étendre jusqu'à un maximum de XNUMX XNUMX lors des tests. Par comparaison, Llama-2, un autre LLM, offre une taille de contexte de 4096.

Les benchmarks sont essentiels pour évaluer les performances de tels modèles, et dans ce domaine, les développeurs chinois affirment que le Qwen-7B a surpassé Llama-2. Une mesure qui se démarque est le test de codage Human-Eval, où Qwen-7B obtient un score de 24.4 par rapport à Llama-2 est 12.8. Il est toutefois prudent d’examiner ces chiffres avec une certaine prudence. Certains benchmarks indiquent que le Qwen-7B surpasse non seulement le modèle de base de LLama-2-7B mais aussi le LLaMAVariante -2-13B. Cependant, face aux versions raffinées de Llama-2, la marge de différence devient plus étroite. Il convient de noter que la méthodologie exacte de formation du Qwen-7B n’a pas été explicitement détaillée par ses développeurs.

En fonctionnalité parallèle à LLaMa2-chat, Qwen a présenté une version centrée sur le chat nommée Qwen-7B-Chat. Ce modèle est optimisé pour interagir avec les utilisateurs et intègre divers outils et Apis pour renforcer sa réactivité.

Ceux qui ont un penchant pour les détails techniques seraient intéressés de savoir que les fondations architecturales de Qwen-7B ressemblent à LLaMA. Cependant, certaines caractéristiques distinctes différencient le Qwen-7B :

  1. Il utilise l'encastrement non lié.
  2. L'encastrement positionnel rotatif est utilisé.
  3. Les biais sont exclus, à l'exception de QKV en attention.
  4. RMSNorm est préféré à LayerNorm.
  5. Au lieu du ReLU standard, SwiGLU est incorporé.
  6. L'attention instantanée a été introduite pour accélérer le processus de formation.
  7. Le modèle comprend 32 couches, a une dimension d'intégration de 4096 et accueille 32 têtes d'attention.

En termes de licence, Qwen-7B s'aligne sur Llama-2. Il permet une utilisation commerciale, mais avec une stipulation sur le volume d'utilisateurs. Alors que Llama-2 fixe ce plafond à 700 millions d'utilisateurs actifs par mois, le seuil de Qwen-7B est de 100 millions.

Ceux qui souhaitent un examen approfondi peuvent se référer au rapport technique disponible sur GitHub. En plus, une démonstration de Qwen-7B, fourni en chinois, est accessible aux personnes intéressées par une exploration pratique des capacités du modèle.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Nexo lance « The Hunt » pour récompenser les utilisateurs avec 12 millions de dollars en jetons NEXO pour leur engagement dans son écosystème
Marchés Rapport de nouvelles Technologie
Nexo lance « The Hunt » pour récompenser les utilisateurs avec 12 millions de dollars en jetons NEXO pour leur engagement dans son écosystème
8 mai 2024
Revolut X Exchange de Revolut séduit les traders de crypto avec des frais de création nuls et des analyses avancées
Marchés Logiciels Histoires et critiques Technologie
Revolut X Exchange de Revolut séduit les traders de crypto avec des frais de création nuls et des analyses avancées
8 mai 2024
La plateforme de trading de crypto BitMEX lance le trading d'options sans frais ni incitations en espèces
La Brochure Marchés Rapport de nouvelles
La plateforme de trading de crypto BitMEX lance le trading d'options sans frais ni incitations en espèces
8 mai 2024
Lisk passe officiellement à Ethereum Layer 2 et dévoile Core v4.0.6
Rapport de nouvelles Technologie
Lisk passe officiellement à Ethereum Layer 2 et dévoile Core v4.0.6
8 mai 2024
CRYPTOMERIA LABS PTE. LTD.