AI Wiki 专业技术
2023 年 6 月 12 日

AI 中的 30 多个 Transformer 模型:它们是什么以及它们是如何工作的

近几个月来,AI 中出现了许多 Transformer 模型,每个模型都有独特且有时有趣的名称。 但是,这些名称可能无法深入了解这些模型的实际作用。 本文旨在提供最流行的 Transformer 模型的全面而直接的列表。 它将对这些模型进行分类,并介绍 Transformer 家族中的重要方面和创新。 顶部列表将涵盖 模型训练 通过自我监督学习,例如 BERT 或 GPT-3,以及在人类参与下接受额外训练的模型,例如 InstructGPT 使用的模型 ChatGPT.

信用: Metaverse Post (mpost.io)
专业技巧
本指南 旨在为初学者和高级学习者提供快速工程方面的全面知识和实践技能。
有很多课程 适用于想要了解更多有关 AI 及其相关技术的个人。
看看 排名前 10 的 AI 加速器 预计将在性能方面引领市场。

什么是 AI 中的变形金刚?

Transformers 是一种深度学习模型,在一篇名为“注意力就是你所需要的” 由谷歌研究人员于 2017 年发表。这篇论文获得了巨大的认可,在短短五年内被引用了超过 38,000 次。

最初的 Transformer 架构是一种特定形式的编码器-解码器模型,在它被引入之前就已经流行起来。 这些模型主要依赖于 LSTM 和循环神经网络的其他变体(RNN),注意只是所使用的机制之一。 然而,Transformer 论文提出了一个革命性的想法,即注意力可以作为建立输入和输出之间依赖关系的唯一机制。

什么是 AI 中的变形金刚?
信用:dominodatalab.com

在 Transformers 的上下文中,输入由一系列标记组成,这些标记可以是自然语言处理中的词或子词(NLP). NLP 模型中通常使用子词来解决词汇外词的问题。 编码器的输出为每个标记生成一个固定维度的表示,并为整个序列生成一个单独的嵌入。 解码器获取编码器的输出并生成一系列标记作为其输出。

自 Transformer 论文发表以来,流行的模型如 BERT 和 GPT 采用了原始架构的各个方面,使用编码器或解码器组件。 这些模型之间的关键相似之处在于层架构,其中包含自注意力机制和前馈层。 在 Transformer 中,每个输入令牌在各层中遍历自己的路径,同时保持与输入序列中每个其他令牌的直接依赖关系。 这一独特的功能允许并行且高效地计算上下文标记表示,而这种功能对于 RNN 等顺序模型来说是不可行的。

虽然本文只触及了 Transformer 架构的表面,但它提供了对其基本方面的一瞥。 为了更全面地了解,我们建议参考原始研究论文或 The Illustrated Transformer 帖子。

AI中的编码器和解码器是什么?

假设你有两个模型,一个编码器和一个解码器, 一起工作 像一个团队。 编码器接受输入并将其转换为固定长度的向量。 然后,解码器获取该向量并将其转换为输出序列。 这些模型一起训练,以确保输出与输入尽可能匹配。

编码器和解码器都有好几层。 编码器中的每一层都有两个子层:一个多头自注意力层和一个简单的前馈网络。 自注意力层帮助输入中的每个标记理解与所有其他标记的关系。 这些子层也有残差连接和层归一化,使学习过程更顺畅。

解码器的多头 自注意层 与编码器中的工作方式略有不同。 它将标记隐藏到它所关注的标记的右侧。 这确保解码器只查看它试图预测的标记之前的标记。 这种屏蔽的多头注意力有助于解码器生成准确的预测。 此外,解码器包括另一个子层,它是编码器所有输出的多头注意层。

请务必注意,这些特定细节已在 Transformer 模型的不同变体中进行了修改。 像 BERT 和 GPT,例如,基于原始架构的编码器或解码器方面。

人工智能中的注意力层是什么?

在我们之前讨论的模型架构中,多头注意力层是使其变得强大的特殊元素。 但注意力到底是什么? 将其视为将问题映射到一组信息并给出输出的函数。 输入中的每个标记都有一个与之关联的查询、键和值。 每个标记的输出表示是通过对值进行加权求和来计算的,其中每个值的权重取决于它与查询的匹配程度。

Transformers 使用称为缩放点积的兼容性函数来计算这些权重。 Transformers 中关于注意力的有趣之处在于每个标记都经过自己的计算路径,允许对输入序列中的所有标记进行并行计算。 它只是多个注意力块,可以独立计算每个标记的表示。 然后组合这些表示以创建令牌的最终表示。

与其他类型的网络相比,如循环和 卷积网络,注意层有一些优点。 它们的计算效率很高,这意味着它们可以快速处理信息。 它们还具有更高的连通性,这有助于捕获序列中的长期关系。

人工智能中的微调模型是什么?

基础模型 是基于大量通用数据训练的强大模型。 然后可以通过在较小的集合上训练它们来适应或微调特定任务 目标特定数据. 这种方法,由 BERT纸,导致基于 Transformer 的模型在与语言相关的机器学习任务中占据主导地位。

对于像 BERT 这样的模型,它们会生成输入标记的表示,但不会自行完成特定任务。 为了使它们有用,额外的 神经层 被添加到顶部并且模型被端到端地训练,这个过程被称为微调。 然而,随着 生成模型 喜欢 GPT,方法略有不同。 GPT 是一个经过训练可以预测句子中下一个单词的解码器语言模型。 通过对大量网络数据进行训练, GPT 可以根据输入查询或提示生成合理的输出。

为了使 GPT 更有帮助, OpenAI 研究人员开发 指导GPT,经过训练可以遵循人类指令。 这是通过微调来实现的 GPT 使用来自各种任务的人工标记数据。 指导GPT 能够执行广泛的任务,并被流行的引擎使用,例如 ChatGPT.

微调也可用于创建优化的基础模型的变体 具体目的 超越语言建模。 例如,有针对语义相关任务(如文本分类和搜索检索)进行微调的模型。 此外,变压器编码器已在多任务中成功微调 学习框架 使用单个共享模型执行多个语义任务。

如今,微调用于创建可供大量用户使用的基础模型版本。 该过程涉及生成对输入的响应 提示并让人对结果进行排名。 该排名用于训练 奖励模式,它为每个输出分配分数。 强化学习与人类反馈 然后使用进一步训练模型。

为什么变形金刚是人工智能的未来?

Transformers 作为一种强大的模型,首先在语言翻译领域得到了展示。 然而,研究人员很快意识到,Transformer 可以用于各种与语言相关的任务,方法是在大量未标记文本上训练它们,然后在较小的标记数据集上对其进行微调。 这种方法使变形金刚能够获取有关语言的重要知识。

最初为语言任务设计的 Transformer 架构也被应用到其他应用程序中,例如 生成图像、音频、音乐,甚至动作。 这使得变形金刚成为生成人工智能领域的关键组成部分,它正在改变社会的各个方面。

工具和框架的可用性,例如 PyTorchTensorFlow 在 Transformer 模型的广泛采用中发挥了至关重要的作用。 像 Huggingface 这样的公司已经建立了自己的 围绕这个想法开展业务 开源 Transformer 库的商业化以及 NVIDIA Hopper Tensor Cores 等专用硬件进一步加快了这些模型的训练和推理速度。

Transformer 的一项值得注意的应用是 ChatGPT, 发布的聊天机器人 OpenAI。 它变得非常受欢迎,在短时间内就达到了数百万用户。 OpenAI 还宣布推出 GPT-4,一个更强大的版本,能够在以下任务中实现类似人类的表现 医学和法律考试.

变形金刚在人工智能领域的影响及其广泛的应用范围是不可否认的。 他们有 改变了方式 我们处理与语言相关的任务,并为生成人工智能的新进展铺平道路。

3 种预训练架构

最初由编码器和解码器组成的 Transformer 架构已经发展到包括基于特定需求的不同变体。 让我们用简单的术语分解这些变化。

  1. 编码器预训练:这些模型侧重于理解完整的句子或段落。 在预训练期间,编码器用于重建输入句子中的掩码标记。 这有助于模型学习理解整体上下文。 此类模型对于文本分类、蕴含和抽取式问答等任务很有用。
  2. 解码器预训练:解码器模型被训练为根据先前的标记序列生成下一个标记。 它们被称为自回归语言模型。 解码器中的自注意力层只能访问句子中给定标记之前的标记。 这些模型非常适合涉及文本生成的任务。
  3. Transformer(编码器-解码器)预训练:此变体结合了编码器和解码器组件。 编码器的自注意力层可以访问所有输入令牌,而解码器的自注意力层只能访问给定令牌之前的令牌。 该架构使解码器能够使用编码器学习的表示。 编码器-解码器模型非常适合摘要、翻译或生成式问答等任务。

预训练目标可能涉及去噪或因果语言建模。 与仅编码器或仅解码器模型相比,编码器-解码器模型的这些目标更为复杂。 根据模型的重点,Transformer 架构有不同的变体。 无论是理解完整的句子、生成文本,还是将两者结合起来以完成各种任务,Transformers 都可以灵活应对与语言相关的不同挑战。

预训练模型的 8 种任务类型

在训练模型时,我们需要给它一个任务或目标来学习。 自然语言处理 (NLP) 中有多种任务可用于预训练模型。 让我们用简单的术语分解其中的一些任务:

  1. 语言建模 (LM):该模型预测句子中的下一个标记。 它学习理解上下文并生成连贯的句子。
  2. 因果语言建模:该模型按照从左到右的顺序预测文本序列中的下一个标记。 这就像一个讲故事的模型,一次一个单词地生成句子。
  3. 前缀语言建模:该模型将“前缀”部分与主序列分开。 它可以处理前缀中的任何标记,然后自回归地生成序列的其余部分。
  4. Masked Language Modeling (MLM):输入句子中的一些标记被屏蔽,模型根据周围的上下文预测丢失的标记。 它学会填空。
  5. 排列语言建模 (PLM):该模型根据输入序列的随机排列预测下一个标记。 它学习处理不同顺序的令牌。
  6. 去噪自动编码器 (DAE):该模型采用部分损坏的输入,旨在恢复原始的、未失真的输入。 它学会处理文本的噪音或缺失部分。
  7. 替换标记检测 (RTD):该模型检测标记是来自原始文本还是生成的版本。 它学习识别替换或操纵的令牌。
  8. 下一句预测(NSP):模型从训练数据中学习区分两个输入句子是否是连续的片段。 它理解句子之间的关系。

这些任务帮助模型学习语言的结构和意义。 通过对这些任务进行预训练,模型在针对特定应用程序进行微调之前对语言有了很好的理解。

人工智能领域的前 30 多位变形金刚

名字预训练架构任务应用领域开发者
伟业Encoder 编码器传销/NSP和BERT一样谷歌
羊驼解码功能LM文本生成和分类任务斯坦福大学
AlphaFoldEncoder 编码器蛋白质折叠预测蛋白质折叠Deepmind
人择助理(另见)解码功能LM从通用对话框到代码助手。人类的
BART编码器/解码器DAE文本生成和文本理解任务Facebook
BERTEncoder 编码器传销/NSP语言理解与问答谷歌
搅拌机 3解码功能LM文本生成和文本理解任务Facebook
布卢姆解码功能LM文本生成和文本理解任务大科学/抱脸
ChatGPT解码功能LM对话代理OpenAI
龙猫解码功能LM文本生成和文本理解任务Deepmind
CLIPEncoder 编码器图像/物体分类OpenAI
CTRL解码功能可控文本生成Salesforce
DALL-E解码功能字幕预测文字转图片OpenAI
达尔-E-2编码器/解码器字幕预测文字转图片OpenAI
德贝塔解码功能传销和BERT一样微软
决策转换器解码功能下一步行动预测通用 RL(强化学习任务)谷歌/加州大学伯克利分校/FAIR
迪亚洛GPT解码功能LM对话框设置中的文本生成微软
蒸馏器Encoder 编码器传销/NSP语言理解与问答拥抱的脸
DQ捷运编码器/解码器DAE文本生成和理解Amazon
玩具娃娃解码功能LM文本生成和分类任务数据块公司
厄尼Encoder 编码器传销知识密集型相关任务各种中国机构
佛朗明哥解码功能字幕预测文字转图片Deepmind
卡拉狄加解码功能LM科学 QA、数学推理、摘要、文档生成、分子特性预测和实体提取。
滑行Encoder 编码器字幕预测文字转图片OpenAI
GPT-3.5解码功能LM对话和通用语言OpenAI
GPT指导解码功能LM知识密集型对话或语言任务OpenAI
HTML编码器/解码器DAE允许结构化 HTML 提示的语言模型Facebook
图像T5字幕预测文字转图片谷歌
LAMDA解码功能LM通用语言建模谷歌
LLaMA解码功能LM常识推理、问答、代码生成和阅读理解。
密涅瓦解码功能LM数学推理谷歌
棕榈解码功能LM语言理解和生成谷歌
罗伯塔Encoder 编码器传销语言理解与问答威斯康星大学/谷歌
麻雀解码功能LM对话代理和通用语言生成应用程序,如问答Deepmind
稳定扩散编码器/解码器字幕预测文字转图片慕尼黑大学 + Stability.ai + Eleuther.ai
骆马解码功能LM对话代理加州大学伯克利分校、CMU、斯坦福大学、加州大学圣地亚哥分校和 MBZUAI

常见问题

人工智能中的变形金刚是一种 深度学习架构 这改变了自然语言处理和其他任务。 他们使用自我注意机制来捕获句子中单词之间的关系,使他们能够理解和生成类似人类的文本。

编码器和解码器是序列到序列模型中常用的组件。 编码器处理文本或图像等输入数据,并将其转换为压缩表示,而解码器则根据编码表示生成输出数据,从而实现语言翻译或图像字幕等任务。

注意力层是用于 神经网络,特别是在 Transformer 模型中。 它们使模型能够有选择地关注输入序列的不同部分,根据每个元素的相关性为每个元素分配权重,从而有效地捕获元素之间的依赖关系和关系。

Fine-tuned models 是指预训练模型,在特定任务或数据集上进一步训练,以提高其性能并使其适应该任务的特定要求。 这个微调过程涉及调整模型的参数以优化其预测并使其更适合目标任务。

Transformers 被认为是 AI 的未来,因为它们在包括自然语言处理、图像生成等在内的广泛任务中展示了卓越的性能。 它们捕获远程依赖关系和高效处理顺序数据的能力使它们对各种应用程序具有高度的适应性和有效性,为生成人工智能的进步和社会的许多方面的革命铺平了道路。

AI 中最著名的 Transformer 模型包括 BERT(来自 Transformers 的双向编码器表示)、 GPT (生成式预训练变压器)和 T5(文本到文本传输变压器)。 这些模型在各种自然语言处理任务中取得了显着的成果,并在人工智能研究界获得了广泛的欢迎。

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

发现加密鲸鱼:市场名人录

by 维多利亚·帕尔奇克
2024 年 5 月 07 日
加入我们的时事通讯。
最新消息

在波动中机构对比特币 ETF 的兴趣增强

通过 13F 文件披露的信息显示,著名机构投资者涉足比特币 ETF,突显出人们越来越接受......

了解更多

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多
加入我们的创新技术社区
了解更多
查看更多
发现加密鲸鱼:市场名人录
企业 市场 故事和评论 专业技术
发现加密鲸鱼:市场名人录
2024 年 5 月 7 日
Orbiter Finance 与比特币 Layer 2 Zulu 网络合作并部署在 Is Lwazi 测试网上
企业 新闻报道 专业技术
Orbiter Finance 与比特币 Layer 2 Zulu 网络合作并部署在 Is Lwazi 测试网上 
2024 年 5 月 7 日
加密货币交易所Bybit整合Ethena Labs的USDe作为抵押资产,支持BTC-USDe和ETH-USDe交易对
市场 新闻报道 专业技术
加密货币交易所Bybit整合Ethena Labs的USDe作为抵押资产,支持BTC-USDe和ETH-USDe交易对
2024 年 5 月 7 日
Bitget钱包推出GetDrop Airdrop 平台并推出首届 Meme Coin 活动,奖金池为 130,000 美元
市场 新闻报道 专业技术
Bitget钱包推出GetDrop Airdrop 平台并推出首届 Meme Coin 活动,奖金池为 130,000 美元
2024 年 5 月 7 日