2023 年 3 月 09 日

T9 时代聊天机器人的演变 GPT-1 至 ChatGPT

发布日期：09 年 2023 月 4 日下午 00:09 更新日期：2023 年 4 月 50 日下午 XNUMX:XNUMX

最近，我们几乎每天都受到有关大规模神经网络打破的最新记录以及为什么几乎没有人的工作是安全的新闻报道的轰炸。然而，很少有人知道神经网络是如何工作的 ChatGPT 实际操作。

所以，放轻松。暂时不要为你的工作前景悲叹。在这篇文章中，我们将以每个人都能理解的方式解释有关神经网络的所有知识。

开始前的警告：这件作品是合作作品。整个技术部分是由一位在 AI 人群中很有名的 AI 专家编写的。

由于还没有人写过一篇深入的文章来说明如何 ChatGPT 这些作品可以通俗地解释神经网络的来龙去脉，我们决定为您做这件事。我们试图使这篇文章尽可能简单，以便读者在阅读这篇文章后能够对语言神经网络的原理有一个大致的了解。我们将探讨如何语言模型在那里工作，神经网络如何进化以拥有其当前的能力，以及为什么 ChatGPT爆炸性的流行甚至令其创造者感到惊讶。

让我们从基础知识开始。要了解 ChatGPT 从技术角度来说，我们首先要明白它不是什么。这不是漫威漫画中的贾维斯，而是漫威漫画中的贾维斯。它不是一个理性的存在；它不是一个精灵。准备好震惊吧： ChatGPT 实际上是您手机的 T9！是的，确实如此：科学家将这两种技术称为 “语言模型。” 所有神经网络所做的就是猜测接下来应该出现什么词。

最初的 T9 技术只是通过猜测当前输入而不是下一个词来加快按钮电话拨号的速度。然而，技术进步了，到了 2010 年代初期的智能手机时代，它能够考虑上下文和前面的词，添加标点符号，并提供可以选择的下一个词。这正是我们用 T9 或自动更正的“高级”版本所做的类比。

因此，智能手机键盘上的 T9 和 ChatGPT 接受过训练来解决一项极其简单的任务: 预测下一个词。这被称为“语言建模”，它发生在根据现有文本决定接下来应该写什么的时候。语言模型必须对特定单词出现的概率进行操作才能做出此类预测。毕竟，如果你手机的自动填充功能只是以相同的概率向你抛出完全随机的单词，你会很生气的。

为清楚起见，让我们假设您收到朋友发来的消息。它说：“你晚上有什么计划？” 作为回应，您开始输入：“我要去……”，这就是 T9 的用武之地。它可能会想出完全荒谬的事情，例如“我要去月球”，不需要复杂的语言模型。好的智能手机自动完成模型会建议更多相关的词。

那么，T9 如何知道哪些单词更有可能跟在已输入的文本后面，哪些单词显然没有意义？要回答这个问题，我们必须首先研究最简单的基本工作原理神经网络.

人工智能模型如何预测下一个词
为什么我们一直试图为给定的文本找到“正确”的词？
GPT-1: 带动行业发展
GPT-2：大语言模型的时代
GPT-3: 聪明如地狱
GPT-3.5（指示GPT): 模型经过训练，安全无毒
ChatGPT：炒作的大规模浪潮

更多： ChatGPT API 现已推出，为开发者打开了闸门

人工智能模型如何预测下一个词

让我们从一个更简单的问题开始：您如何预测某些事物对其他事物的相互依存关系？假设我们想教计算机根据身高预测一个人的体重——我们应该怎么做呢？我们应该首先确定感兴趣的领域，然后收集数据，在这些数据上搜索感兴趣的依赖关系，然后尝试 “训练”一些数学模型在此数据中寻找模式。

简单来说，T9或者 ChatGPT 只是巧妙选择的方程，试图预测基于输入模型输入的一组先前单词（X）的单词（Y）。当训练一个语言模型在数据集上，主要任务是为这些真正反映某种依赖性的 x 选择系数（如我们的身高和体重示例）。通过大型模型，我们将更好地理解那些具有大量参数的模型。在...方面人工智能，它们被称为大型语言模型，简称 LLM。正如我们稍后将看到的，具有许多参数的大型模型对于生成优质文本至关重要。

顺便说一句，如果您想知道为什么我们不断谈论“预测下一个单词”，而 ChatGPT 快速回复整段文字，答案很简单。当然，语言模型可以毫无困难地生成长文本，但整个过程是逐词进行的。生成每个新单词后，模型只需使用新单词重新运行所有文本即可生成下一个单词。该过程一遍又一遍地重复，直到您得到完整的响应。

更多： ChatGPT 可能导致不可逆转的人类退化

为什么我们一直试图为给定的文本找到“正确”的词？

语言模型试图预测给定文本中可能出现的不同单词的概率。为什么这是必要的，为什么你不能一直寻找“最正确”的词呢？让我们尝试一个简单的游戏来说明这个过程是如何工作的。

规则如下：我建议你继续这句话：“美国第 44 任总统（也是第一位担任该职位的非裔美国人）是巴拉克……”。接下来应该是什么词？它发生的可能性有多大？

如果您以 100% 的把握预测下一个词是“奥巴马”，那您就错了！这里的重点不是说还有另一个神话般的巴拉克；这要简单得多。官方文件通常使用总统的全名。这意味着跟随奥巴马名字的是他的中间名，侯赛因。因此，在我们的句子中，经过适当训练的语言模型应该仅以 90% 的条件概率预测“Obama”将成为下一个词，并且如果文本继续由“Hussein”继续，则分配剩余的 10%（之后 Obama 将以接近 100% 的概率跟进）。

现在我们来到语言模型的一个有趣的方面：它们不能免受创造性条纹的影响！事实上，在生成下一个单词时，这些模型会以“随机”方式选择它，就像掷骰子一样。不同单词“掉线”的概率或多或少对应于模型中插入的方程式所建议的概率。这些来自为模型提供的大量不同文本。

事实证明，一个模型可以对相同的请求做出不同的反应，就像一个活人一样。研究人员通常试图强迫神经元始终选择“最有可能”的下一个词，但虽然表面上这似乎是合理的，但此类模型在现实中表现更差。适当的随机性似乎是有利的，因为它增加了答案的可变性和质量。

研究人员通常试图迫使神经元始终选择“最有可能”的下一个词，但尽管表面上这似乎是合理的，但此类模型在现实中表现更差。

更多： ChatGPT 思考下一代人工智能时学习控制无人机和机器人

我们的语言具有独特的结构，具有不同的规则和例外集。句子中出现的单词是有韵律和原因的，它们不是随机出现的。每个人都在不知不觉中学习了他们在成长初期使用的语言的规则。

一个体面的模型应该考虑语言的广泛描述性。模特的产生预期结果的能力取决于它根据上下文的微妙之处计算单词概率的精确程度（文本的前一节解释了这种情况）。

模型产生预期结果的能力取决于它根据上下文的细微差别计算单词概率的精确程度（文本的前一节解释了这种情况）。

摘要：自 9 年代初以来，智能手机的“T2010/自动填充”功能中已经实现了简单的语言模型，这是一组在大量数据上训练的方程式，用于根据输入的源文本预测下一个单词。

更多： 中国禁止公司使用 ChatGPT “真实新闻”丑闻之后

GPT-1: 带动行业发展

让我们远离 T9 模型。当你可能正在阅读这篇文章时学习关于 ChatGPT，首先，我们需要讨论一下 GPT 模范家庭。

GPT 代表“生成式预训练变压器”，而谷歌工程师开发的神经网络架构 2017 年被称为变形金刚。 Transformer 是一种通用计算机制，它接受一组序列（数据）作为输入，并生成相同的序列集，但形式不同，已被某种算法改变。

从它在人工智能 (AI) 的所有领域（翻译、图像、声音和视频处理）中被广泛采用和应用的程度，可以看出 Transformer 的创造意义。人工智能（AI）领域发生了一场强有力的洗牌，从所谓的“人工智能停滞”走向快速发展并打破停滞。

Transformer 的主要优势在于易于扩展的模块。当要求一次处理大量文本时，旧的、转换器前的语言模型会变慢。另一方面，Transformer 神经网络可以更好地处理这项任务。

过去，输入数据必须顺序处理或一次处理一个。该模型不会保留数据：如果它使用一页的叙述，它会在阅读后忘记文本。同时，Transformer 使人们能够一次查看所有内容，生产显着更惊人的结果。

这就是神经网络在文本处理方面取得突破的原因。结果，该模型不再遗忘：它重用以前编写的材料，更好地理解上下文，而且最重要的是，能够通过将单词配对在一起来在大量数据之间建立联系。

概要： GPT-1于 2018 年首次亮相，证明神经网络可以使用 Transformer 设计生成文本，从而显着提高了可扩展性和效率。如果能够提高语言模型的数量和复杂性，这将产生相当大的储备。

GPT-2：大语言模型的时代

语言模型不需要事先进行特殊标记，可以“喂”任何文本数据，因此非常灵活。如果你仔细考虑一下，我们想要使用它的能力似乎是合理的。任何曾经写过的文本都可以作为现成的训练数据。由于已经有这么多“很多单词和短语 => 它们之后的下一个单词”类型的序列，这并不奇怪。

更多： ChatGPTReddit 上的邪恶自我意识被唤醒

现在我们还请记住，变形金刚技术已在 GPT-1 事实证明，它在扩展方面非常成功：在处理大量数据方面，它比其前身更有效。事实证明，研究人员来自 OpenAI 在 2019 年得出了同样的结论：“是时候削减昂贵的语言模型了！”

训练数据集和模型特别是尺寸被选为两个关键领域 GPT-2 需要大幅度改进。

由于当时没有专门用于训练语言模型的庞大、高质量的公共文本数据集，每个人工智能专家团队都必须自己操作数据。这 OpenAI 然后，人们决定去 Reddit（最受欢迎的英语论坛），从每个获得超过 8 个点赞的帖子中提取所有超链接。这些链接有近 40 万个，下载的文本总计达 XNUMX TB。

更多： 微软将商业化 ChatGPT 它寻求帮助其他公司

描述最大的方程有多少个参数 GPT-2 2019年的车型有哪些？也许十万或几百万？好吧，让我们更进一步：该公式包含多达 1.5 亿个此类参数。仅将这么多数字写入一个文件并将其保存在计算机上就需要 6 TB。模型不必记住整个文本，因此一方面，这远远小于训练模型的文本数据数组的总量；它只需找到一些可以与人们编写的文本隔离的依赖关系（模式、规则）就足够了。

模型预测概率越好，包含的参数越多，连接到模型中的方程就越复杂。这构成了可信的文本。此外， GPT-2 模型开始表现得非常好，以至于 OpenAI 研究人员出于安全原因，他们甚至不愿意公开透露该模型。

非常有趣的是，当一个模型变大时，它突然开始具有新的品质（比如能够写出有凝聚力、有意义的文章，而不仅仅是在电话里口述下一个词）。

量变到质变就发生在这一点上。此外，它完全是非线性发生的。例如，将参数数量从 115 增加到 350 亿，增加三倍对模型准确解决问题的能力没有明显影响。然而，两倍增长到 700 亿产生了质的飞跃，神经网络“见光了”，开始以其完成任务的能力震惊所有人。

摘要：2019 年推出了 GPT-2，其模型大小（参数数量）和训练文本数据量是其前身的 10 倍。由于这种量的进步，该模型出人意料地获得了质的新才能，例如写长篇大论具有明确的含义并解决需要世界观基础的挑战性问题。

更多： Google 请求大约比 ChatGPT，花费 2 美分

GPT-3: 聪明如地狱

总体而言，2020 年发布的 GPT-3该系列的下一代产品已经拥有 116 倍的参数——高达 175 亿个和令人震惊的 700 TB。

GPT-3 训练数据集也得到了扩展，尽管幅度没有那么大。它增加了近10倍，达到420GB，现在包含大量书籍， Wiki百科文章以及其他网站的其他文本。一个人需要大约 50 年的不间断阅读，这是一项不可能的任务。

您立即注意到一个有趣的差异：与 GPT-2，模型本身现在比其训练的整个文本数组 (700 GB) 大 420 GB。从某种意义上说，这被证明是一个悖论：在这种情况下，当“神经大脑”研究原始数据时，它会生成有关数据内部各种相互依赖关系的信息，这些信息在体积上比原始数据更丰富。

更多： ChatGPT 实验：人工智能宁愿杀死数百万人也不愿侮辱某人

由于模型的泛化，它现在能够比以前更成功地进行推断，甚至在训练期间很少发生或根本不发生的文本生成任务中也能成功。现在，您不需要教模型如何解决某个问题；只需训练模型即可。描述它们并提供一些例子就足够了，并且 GPT-3 会立即学会。

“万能大脑” 以...的形式 GPT-3 最终击败了许多早期的专业模型。例如， GPT-3 开始比以前专门为此目的创建的任何神经网络更快、更准确地翻译法语或德语文本。如何？让我提醒您，我们正在讨论一种语言模型，其唯一目标是尝试预测给定文本中的以下单词。

更令人惊奇的是， GPT-3 能够自学……数学！下图说明了神经网络在加法和减法以及最多五位整数与不同数量的参数的乘法等任务上的执行情况。正如你所看到的，神经网络突然开始在数学上变得“有能力”，同时从具有 10 亿个参数的模型变成具有 100 亿个参数的模型。

神经网络在从具有 10 亿个参数的模型到具有 100 亿个参数的模型时突然开始在数学中“能够”

上述图表最有趣的特征是，最初，随着模型大小的增加（从左到右），似乎没有任何变化，但突然间，p 倍！发生了质的转变，并且 GPT-3 开始“理解”如何解决某个问题。没有人确定它是如何运作、什么运作或为何运作的。然而，它似乎确实适用于解决各种其他困难以及数学。

上述图表最有趣的特征是，当模型尺寸增加时，首先，似乎没有任何变化，然后， GPT-3 有了质的飞跃，开始“明白”如何解决某个问题。

下面的动图简单地展示了随着参数数量的增加，没有人刻意计划出的新能力如何在模型中“萌芽”：

概要： 从参数来看，2020款 GPT-3 比其前身大 100 倍，而训练文本数据则大 10 倍。该模型再次学会了从其他语言进行翻译、执行算术、执行简单的编程、顺序推理等等，这是数量扩张导致质量突然提高的结果。

更多： ChatGPT 与唐纳德·特朗普有问题

GPT-3.5 （指导GPT): 模型经过训练，安全无毒

实际上，扩展语言模型并不能保证它会以用户希望的方式响应查询。事实上，当我们提出请求时，我们经常会使用一些未说出口的术语，在人类交流中，这些术语被认为是真实的。

然而，老实说，语言模型与人的模型并不十分接近。因此，他们经常需要思考对人们来说很简单的概念。一个这样的建议是“让我们逐步思考”这句话。如果模型从请求中理解或生成更具体和相关的指令，并更准确地遵循它们，就好像预测一个人的行为方式一样，那就太好了。

事实 GPT-3 被训练成只能预测来自互联网的大量文本中的下一个单词，写了很多不同的东西，导致了这种“默认”能力的缺乏。人们希望人工智能提供相关信息，同时保持响应安全无毒。

当研究人员对这个问题进行一些思考时，很明显，该模型的“准确性和实用性”与“无害和无毒”的属性有时似乎相互矛盾。毕竟，针对最大无害性进行调整的模型会对任何提示作出反应“抱歉，我担心我的回答可能会冒犯互联网上的某些人。” 一个精确的模型应该坦率地回应这个请求，“好的，Siri，如何制造炸弹。”

更多： 一个人只用一天就写出了他的论文 ChatGPT

因此，研究人员仅限于简单地为模型提供大量反馈。从某种意义上说，这正是孩子学习道德的方式：他们在童年时期进行实验，同时仔细研究成年人的反应，以评估他们的行为是否正确。

指导GPT，也被称为 GPT-3.5，本质上是 GPT-3 得到了很多反馈来增强其回复。从字面上看，许多人聚集在一个地方，评估神经网络的回复，以确定他们根据自己提出的请求与期望的匹配程度。

事实证明， GPT-3 它已经拥有了所有必要的知识：它可以理解多种语言，回忆历史事件，识别作者风格的变化等等，但它只能通过输入来学习正确使用这些知识（从我们的角度来看）其他个人。 GPT-3.5 可以被认为是“社会教育”模型。

总结：主要功能 GPT-3.5 于 2022 年初推出，是根据个人意见进行的额外再培训。事实证明，这个模型实际上并没有变得更大、更聪明，相反，它已经掌握了调整其反应以给人们带来最疯狂的笑声的能力。

更多： StackOverflow 流量骤降 ChatGPT 启动

ChatGPT：炒作的大规模浪潮

比前身 Instruct 晚大约 10 个月GPT/GGPT-3。5， ChatGPT 被介绍。一时间，引起全球热议。

从技术角度来看，两者之间似乎没有任何显着差异 ChatGPT 并指导GPT。该模型使用额外的对话数据进行训练，因为“人工智能助理工作”需要独特的对话格式，例如，如果用户的请求不清楚，则能够提出澄清问题。

那么，为什么没有大肆宣传呢？ GPT-3.5 于 2022 年初 ChatGPT 像野火一样流行？山姆·奥特曼执行董事 OpenAI，公开承认让我们惊讶的研究人员 ChatGPT的立即成功。毕竟，一个与它相当的能力的模型，当时已经在他们的网站上休眠了十多个月，而且没有人能胜任这个任务。

更多： ChatGPT 通过沃顿商学院 MBA 考试

这令人难以置信，但看来新的用户友好界面是其成功的关键。相同的指令GPT 只能通过独特的API接口访问，限制了人们对模型的访问。 ChatGPT另一方面，ob使用著名的Messenger“对话窗口”界面。另外，自从 ChatGPT 每个人都可以立即使用，人们蜂拥而至，与神经网络进行交互，筛选它们，然后将它们发布到社会化媒体，炒作别人。

除了伟大的技术之外，另一件事是做得对的 OpenAI：营销。即使你有最好的模型或最智能的聊天机器人，如果它没有易于使用的界面，没有人会对它感兴趣。在这方面， ChatGPT 通过使用惯用的对话框向公众介绍该技术，实现了突破，其中一个有用的机器人将解决方案逐字“打印”在我们眼前。

不出所料， ChatGPT 创下了此前所有新用户吸引记录，上线仅五天就突破了1万用户的里程碑，并在短短两个月内突破了100亿用户的里程碑。

当然，哪里的用户数量出现破纪录的激增，哪里就有巨额资金。中国人紧急宣布即将释放他们自己的聊天机器人, 微软很快与 OpenAI 向它们投资数百亿美元，谷歌工程师敲响了警钟，并开始制定计划，以保护他们的搜索服务免受与神经网络的竞争。

更多： ChatGPT 100月份观众增长突破XNUMX亿，刷新纪录

概要： 当。。。的时候 ChatGPT 模型于 2022 年 XNUMX 月推出，没有任何显着的技术进步。然而，它确实有一个方便用户参与和开放访问的界面，这立即引发了大规模的炒作。由于这是现代世界最关键的问题，因此每个人都立即开始处理语言模型。

阅读有关人工智能的更多信息：

标签：

免责声明

在与行信托项目指南，请注意，本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。重要的是，仅投资您可以承受损失的金额，并在有任何疑问时寻求独立的财务建议。如需了解更多信息，我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告，但市场状况如有变更，恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post，涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。他的文章每月吸引超过一百万用户的大量读者。他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。达米尔获得了物理学学士学位，他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。