XLM-V:一種嘗試解決詞彙瓶頸問題的多語言掩碼語言模型新方法
簡單來說
文章提出了以下問題: 語言模型 參數增加,深度增加,但詞彙量仍然相同。
研究人員開始以意想不到的方式使用詞彙表中的 1 萬個標記訓練新模型。
研究人員決心通過如此顯著的代幣增加來了解他們可以做出什麼樣的改進。
所提出的問題 文章 題為“XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models”的文章指出,當語言模型的參數和深度增加時,其詞彙量保持不變。 例如,mT5 模型有 13B 個參數,但有 250K 詞的詞彙表,支持 100 多種語言。 因此,每種語言大約有 2,500 個獨特的標記,這顯然是一個非常小的數字。
作者採取什麼行動? 他們以意想不到的方式開始使用詞彙表中的 1 萬個標記訓練新模型。 XLM-R 以前存在,但是,通過這次升級,它將成為 XLM-V。 作者決心看看他們可以通過如此顯著的代幣增加做出什麼樣的改進。
XLM-V 是 XLM-R 沒有的新東西怎麼樣?
改進的 多語言模型 with Language-Clustered Vocabularies 方法用於為每種語言構造詞彙表示向量,如下所示:對於語言集合中的每種語言,它們構成一個二元向量,其中每個元素都是該語言中的一個特定單詞。 一個表示該詞包含在該語言的詞典中(您可以在附件中查看帶有圖形描述的圖像。)但是,通過利用每個詞位出現的負對數概率創建一個向量,作者增強了引用的方式.
- 之後對向量進行分組。 此外,在每個特定的集群上訓練了一個句子模型,以阻止詞彙不相關的語言之間的詞彙轉移。
- ALP 評估字典表示特定語言的能力。
- 使用算法創建 ULM 字典是以下步驟。 它從一個大的初始字典開始,然後逐漸減少它,直到標記的數量低於字典大小的某個閾值。
閱讀有關人工智能的更多信息:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。