阿里巴巴推出开源Qwen-7B语言模型
阿里巴巴推出开源大语言模型(LLM) Qwen-7B,标志着他们首次进入公开的法学硕士领域。 该模型基于 7 亿个参数构建。
作为上下文,Qwen-7B 使用 2.2 万亿个代币进行了训练。 训练阶段设置的上下文大小为 2048,而用户可以在测试期间将其扩展到最大 8192。 通过对比, Llama-2,另一个法学硕士,提供的上下文大小为 4096。
基准对于衡量此类模型的性能至关重要,在这个领域,中国开发人员断言 Qwen-7B 已经超越 Llama-2。 一项突出的指标是 Human-Eval 编码基准,其中 Qwen-7B 的得分为 24.4 Llama-2 为 12.8。 然而,谨慎看待这些数字是明智之举。 一些基准测试确实表明 Qwen-7B 的性能不仅优于基础模型 LLama-2-7B 还有 LLaMA-2-13B 变体。 然而,当与精炼版本较量时 Llama-2,差异幅度变窄。 值得注意的是,Qwen-7B 的具体训练方法尚未被其开发者明确详细说明。
在功能上平行于 LLaMa2-chat,Qwen 推出了一个以聊天为中心的版本,名为 Qwen-7B-Chat。 该模型针对与用户交互进行了优化,并结合了各种工具和 APIs 以增强其响应能力。
那些对技术细节感兴趣的人可能有兴趣知道 Qwen-7B 的架构基础与 LLaMA。 然而,Qwen-7B 有一些独特的特征:
- 它采用不受限嵌入。
- 使用旋转位置嵌入。
- 排除偏见,但注意力中的 QKV 除外。
- RMSNorm 优于 LayerNorm。
- 并入了 SwiGLU,而不是标准的 ReLU。
- 引入 Flash Attention 可以加快训练过程。
- 该模型由 32 层组成,嵌入维度为 4096,可容纳 32 个注意力头。
在许可方面,Qwen-7B 与 Llama-2。 它允许商业用途,但有用户量的规定。 尽管 Llama-2将此上限设置为每月700亿活跃用户,Qwen-7B的阈值是100亿。
想要深入研究的人可以参考 GitHub 上提供的技术报告。 此外, Qwen-7B的演示,以中文提供,对于那些有兴趣实际探索该模型功能的人来说可以使用。
阅读有关人工智能的更多信息:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。