新闻报道 专业技术
2023 年 2 月 06 日

XLM-V:一种尝试解决词汇瓶颈问题的多语言掩码语言模型新方法

简单来说

文章提出了以下问题: 语言模型 参数增加,深度增加,但词汇量仍然相同。

研究人员开始以意想不到的方式使用词汇表中的 1 万个标记训练新模型。

研究人员决心通过如此显着的代币增加来了解他们可以做出什么样的改进。

所提出的问题 刊文 题为“XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models”的文章指出,当语言模型的参数和深度增加时,其词汇量保持不变。 例如,mT5 模型有 13B 个参数,但有 250K 词的词汇表,支持 100 多种语言。 因此,每种语言大约有 2,500 个独特的标记,这显然是一个非常小的数字。

XLM-V:一种尝试解决词汇瓶颈问题的多语言掩蔽语言模型的新方法
@ Midjourney / 沙律

作者采取什么行动? 他们以意想不到的方式开始使用词汇表中的 1 万个标记训练新模型。 XLM-R 以前存在,但是,通过这次升级,它将成为 XLM-V。 作者决心看看他们可以通过如此显着的代币增加做出什么样的改进。

相关文章: 到 100 年,AI 模型训练成本预计将从 500 亿美元增加到 2030 亿美元

XLM-V 是 XLM-R 没有的新东西怎么样?

XLM-V 是 XLM-R 没有的新东西怎么样?

改进的 多语言模型 with Language-Clustered Vocabularies 方法用于为每种语言构造词汇表示向量,如下所示:对于语言集合中的每种语言,它们构成一个二元向量,其中每个元素都是该语言中的一个特定单词。 一个表示该词包含在该语言的词典中(您可以在附件中查看带有图形描述的图像。)但是,通过利用每个词位出现的负对数概率创建一个向量,作者增强了引用的方式.

  1. 之后对向量进行分组。 此外,在每个特定的集群上训练了一个句子模型,以阻止词汇不相关的语言之间的词汇转移。
  2. ALP 评估字典表示特定语言的能力。
  3. 使用算法创建 ULM 字典是以下步骤。 它从一个大的初始字典开始,然后逐渐减少它,直到标记的数量低于字典大小的某个阈值。

阅读有关人工智能的更多信息:

标签:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性

by 艾丽莎·戴维森
2024 年 5 月 03 日

Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷

by 艾丽莎·戴维森
2024 年 5 月 03 日

CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励

by 艾丽莎·戴维森
2024 年 5 月 03 日
加入我们的时事通讯。
最新消息

Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性

by 艾丽莎·戴维森
2024 年 5 月 03 日

Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷

by 艾丽莎·戴维森
2024 年 5 月 03 日

CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励

by 艾丽莎·戴维森
2024 年 5 月 03 日

在波动中机构对比特币 ETF 的兴趣增强

通过 13F 文件披露的信息显示,著名机构投资者涉足比特币 ETF,突显出人们越来越接受......

了解更多

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多
加入我们的创新技术社区
了解更多
查看更多
Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性
企业 新闻报道 专业技术
Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性
2024 年 5 月 3 日
Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷
市场 新闻报道 专业技术
Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷
2024 年 5 月 3 日
Velodrome 将在未来几周内推出 Superchain Beta 版本,并在 OP 堆栈第 2 层区块链上进行扩展
市场 新闻报道 专业技术
Velodrome 将在未来几周内推出 Superchain Beta 版本,并在 OP 堆栈第 2 层区块链上进行扩展
2024 年 5 月 3 日
CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励
企业 新闻报道 专业技术
CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励
2024 年 5 月 3 日