Alibaba présente le modèle de langage Open Source Qwen-7B
Alibaba a dévoilé son Large Language Model (LLM) open-source nommé Qwen-7B, marquant leur entrée inaugurale dans le domaine des LLM accessibles au public. Ce modèle est construit sur 7 milliards de paramètres.
Pour rappel, Qwen-7B a suivi une formation utilisant 2.2 billions de jetons. La taille du contexte définie au cours de cette phase de formation était de 2048 8192, tandis que les utilisateurs peuvent l'étendre jusqu'à un maximum de XNUMX XNUMX lors des tests. Par comparaison, Llama-2, un autre LLM, offre une taille de contexte de 4096.
Les benchmarks sont essentiels pour évaluer les performances de tels modèles, et dans ce domaine, les développeurs chinois affirment que le Qwen-7B a surpassé Llama-2. Une mesure qui se démarque est le test de codage Human-Eval, où Qwen-7B obtient un score de 24.4 par rapport à Llama-2 est 12.8. Il est toutefois prudent d’examiner ces chiffres avec une certaine prudence. Certains benchmarks indiquent que le Qwen-7B surpasse non seulement le modèle de base de LLama-2-7B mais aussi le LLaMAVariante -2-13B. Cependant, face aux versions raffinées de Llama-2, la marge de différence devient plus étroite. Il convient de noter que la méthodologie exacte de formation du Qwen-7B n’a pas été explicitement détaillée par ses développeurs.
En fonctionnalité parallèle à LLaMa2-chat, Qwen a présenté une version centrée sur le chat nommée Qwen-7B-Chat. Ce modèle est optimisé pour interagir avec les utilisateurs et intègre divers outils et Apis pour renforcer sa réactivité.
Ceux qui ont un penchant pour les détails techniques seraient intéressés de savoir que les fondations architecturales de Qwen-7B ressemblent à LLaMA. Cependant, certaines caractéristiques distinctes différencient le Qwen-7B :
- Il utilise l'encastrement non lié.
- L'encastrement positionnel rotatif est utilisé.
- Les biais sont exclus, à l'exception de QKV en attention.
- RMSNorm est préféré à LayerNorm.
- Au lieu du ReLU standard, SwiGLU est incorporé.
- L'attention instantanée a été introduite pour accélérer le processus de formation.
- Le modèle comprend 32 couches, a une dimension d'intégration de 4096 et accueille 32 têtes d'attention.
En termes de licence, Qwen-7B s'aligne sur Llama-2. Il permet une utilisation commerciale, mais avec une stipulation sur le volume d'utilisateurs. Alors que Llama-2 fixe ce plafond à 700 millions d'utilisateurs actifs par mois, le seuil de Qwen-7B est de 100 millions.
Ceux qui souhaitent un examen approfondi peuvent se référer au rapport technique disponible sur GitHub. En plus, une démonstration de Qwen-7B, fourni en chinois, est accessible aux personnes intéressées par une exploration pratique des capacités du modèle.
En savoir plus sur l'IA :
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.