新聞報導 專業技術
2023 年 9 月 12 日

FLM-101B:超高性價比的101B級語言模型,與領先的AI模型競爭

簡單來說

中國法學碩士 LM-101B 的訓練預算為 100 萬美元,其性能可與知名模型(如 GPT-3 和GLM-130B。

中國研究人員推出了新的法學碩士, FLM-101B,一個僅解碼器的法學碩士,擁有驚人的 101 億個參數。 這一發展為研究和實際應用提供了一種具有成本效益的替代方案。

FLM-101B:超高性價比101B規模語言模型與領先AI模型競爭
相關新聞: 到 100 年,AI 模型訓練成本預計將從 500 億美元增加到 2030 億美元

FLM-101B 的脫穎而出之處在於其在相對適度的預算下實現了卓越的性能。 眾所周知,從頭開始訓練法學碩士可能需要天文數字的投資,但 FLM-101B 的創建者已經證明,僅使用 101 萬美元的預算就可以訓練具有 100 億個參數的模型。

實驗結果令人印象深刻。 FLM-101B 已證明其性能水平可與現有資源密集型產品相媲美 模型喜歡 GPT-3 和GLM-130B。 這一比較凸顯了這種經濟高效的模型的巨大潛力,特別是在訓練數據中不存在復雜上下文的 IQ 基准上。

FLM-101B 的創建者已將該模型開源,此舉突顯了他們對推進人工智能研究和開發的承諾。 世界各地的研究人員和開發人員現在可以訪問和利用這個 101B 規模的法學碩士課程,涵蓋中文和英文的各種應用。

FLM-101B 模型採用獨特的訓練方法。 它在訓練的初始階段從較小的 16 億個參數模型中快速積累知識,並逐步擴展到 101 億個參數。 這種增量方法顯著降低了培訓成本,使其在經濟上適用於更廣泛的項目。

FLM-101B 的一項突出功能是支持推理過程中有效的窗口大小擴展。 這是通過使用 xPos 旋轉位置嵌入來實現的,使模型能夠處理更廣泛的上下文,從而增強其適應性和可用性。

FLM-101B 在不到 24 天內在由 800 個 DGX-A26 GPU 服務器組成的集群上進行了訓練。 這一令人印象深刻的壯舉強調了該模型的可擴展性和高效的資源利用。 該模型的訓練代碼庫改編自 Megatron-LM,很快將開源,為人工智能社區提供寶貴的見解。

FLM-101B 的創建者承認潛在的局限性,包括由於數據集的開放性,模型會暴露於訓練語料庫中的不安全示例。 這一警告提醒人們負責任地使用人工智能和 內容審核.

雖然 FLM-101B 取得了顯著的成果,但創作者也承認有待改進的地方。 該模型的推理過程雖然強大,但尚未完全優化,導致資源使用率更高且速度降低。 然而,我們正在計劃在推理中引入 Flash Attention,以解決這一限制。

閱讀有關人工智能的更多信息:

標籤:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6

by 艾莉莎戴維森
2024 年 5 月 08 日
加入我們的時事通訊。
最新消息

Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6

by 艾莉莎戴維森
2024 年 5 月 08 日

2024 年 7 月新 Meme 幣:加密貨幣愛好者的 XNUMX 個精選

by 維多利亞·帕爾奇克
2024 年 5 月 08 日

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多
加入我們的創新技術社區
了解更多
阅读更多
Nexo 發起「狩獵」活動,獎勵參與其生態系統的用戶 12 萬美元的 NEXO 代幣
市場 新聞報導 專業技術
Nexo 發起「狩獵」活動,獎勵參與其生態系統的用戶 12 萬美元的 NEXO 代幣
2024 年 5 月 8 日
Revolut 的 Revolut X 交易所以零製造商費用和進階分析吸引加密貨幣交易者
市場 軟體 故事和評論 專業技術
Revolut 的 Revolut X 交易所以零製造商費用和進階分析吸引加密貨幣交易者
2024 年 5 月 8 日
加密貨幣交易平台 BitMEX 推出零費用和現金激勵的選擇權交易
購物 市場 新聞報導
加密貨幣交易平台 BitMEX 推出零費用和現金激勵的選擇權交易
2024 年 5 月 8 日
Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6
新聞報導 專業技術
Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6
2024 年 5 月 8 日