阿里巴巴推出開源Qwen-7B語言模型
阿里巴巴推出開源大語言模型(LLM) Qwen-7B,標誌著他們首次進入公開的法學碩士領域。 該模型基於 7 億個參數構建。
作為上下文,Qwen-7B 使用 2.2 兆個代幣進行了訓練。 訓練階段設定的上下文大小為 2048,而使用者可以在測試期間將其擴展到最大 8192。 透過對比, Llama-2,另一個法學碩士,提供的上下文大小為 4096。
基準對於衡量此類模型的性能至關重要,在這個領域,中國開發人員斷言 Qwen-7B 已經超越 Llama-2。 一項突出的指標是 Human-Eval 編碼基準,其中 Qwen-7B 的得分為 24.4 Llama-2 為 12.8。 然而,謹慎看待這些數字是明智之舉。 一些基準測試確實表明 Qwen-7B 的性能不僅優於基礎模型 LLama-2-7B 還有 LLaMA-2-13B 變體。 然而,當與精煉版本較量時 Llama-2,差異幅度變窄。 值得注意的是,Qwen-7B 的具體訓練方法尚未被其開發者明確詳細說明。
在功能上平行於 LLaMa2-chat,Qwen 推出了一個以聊天為中心的版本,名為 Qwen-7B-Chat。 該模型針對與用戶互動進行了最佳化,並結合了各種工具和 APIs 以增強其響應能力。
對技術細節感興趣的人可能有興趣知道 Qwen-7B 的架構基礎與 LLaMA。 然而,Qwen-7B 有一些獨特的特徵:
- 它採用不受限嵌入。
- 使用旋轉位置嵌入。
- 排除偏見,但注意力中的 QKV 除外。
- RMSNorm 優於 LayerNorm。
- 併入了 SwiGLU,而不是標準的 ReLU。
- 引入 Flash Attention 可以加快訓練過程。
- 該模型由 32 層組成,嵌入維度為 4096,可容納 32 個注意力頭。
在許可方面,Qwen-7B 與 Llama-2。 它允許商業用途,但有用戶量的規定。 儘管 Llama-2將此上限設定為每月700億活躍用戶,Qwen-7B的閾值是100億。
想要深入研究的人可以參考 GitHub 上提供的技術報告。 此外, Qwen-7B的演示,以中文提供,對於那些有興趣實際探索該模型功能的人來說可以使用。
閱讀有關人工智能的更多信息:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。