XLM-V:一种尝试解决词汇瓶颈问题的多语言掩码语言模型新方法
简单来说
文章提出了以下问题: 语言模型 参数增加,深度增加,但词汇量仍然相同。
研究人员开始以意想不到的方式使用词汇表中的 1 万个标记训练新模型。
研究人员决心通过如此显着的代币增加来了解他们可以做出什么样的改进。
所提出的问题 刊文 题为“XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models”的文章指出,当语言模型的参数和深度增加时,其词汇量保持不变。 例如,mT5 模型有 13B 个参数,但有 250K 词的词汇表,支持 100 多种语言。 因此,每种语言大约有 2,500 个独特的标记,这显然是一个非常小的数字。
作者采取什么行动? 他们以意想不到的方式开始使用词汇表中的 1 万个标记训练新模型。 XLM-R 以前存在,但是,通过这次升级,它将成为 XLM-V。 作者决心看看他们可以通过如此显着的代币增加做出什么样的改进。
XLM-V 是 XLM-R 没有的新东西怎么样?
改进的 多语言模型 with Language-Clustered Vocabularies 方法用于为每种语言构造词汇表示向量,如下所示:对于语言集合中的每种语言,它们构成一个二元向量,其中每个元素都是该语言中的一个特定单词。 一个表示该词包含在该语言的词典中(您可以在附件中查看带有图形描述的图像。)但是,通过利用每个词位出现的负对数概率创建一个向量,作者增强了引用的方式.
- 之后对向量进行分组。 此外,在每个特定的集群上训练了一个句子模型,以阻止词汇不相关的语言之间的词汇转移。
- ALP 评估字典表示特定语言的能力。
- 使用算法创建 ULM 字典是以下步骤。 它从一个大的初始字典开始,然后逐渐减少它,直到标记的数量低于字典大小的某个阈值。
阅读有关人工智能的更多信息:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。