2023 年 4 月 05 日

关于大型语言模型你应该知道的 8 件事

发布时间：05 年 2023 月 4 日凌晨 29:05 更新日期：2023 年 4 月 30 日凌晨 XNUMX:XNUMX

简单来说

大型语言模型（法学硕士）用于探索自然语言的细微差别，提高机器理解和生成文本的能力，以及自动执行语音识别和机器翻译等任务。

管理 LLM 没有简单的解决方案，但它们与人类一样有能力。

随着自然语言处理的发展及其在商业中的使用激增，人们对大型语言模型的兴趣与日俱增。这些模型用于探索自然语言的细微差别，提高机器理解和生成文本以及自动执行语音识别和机器翻译等任务的能力。关于大型语言模型 (LLM)，您应该了解以下八项基本知识。

关于大型语言模型你应该知道的 10 件事 — @Midjourney /塔卡#4076

随着成本不断上升，法学硕士更“有能力”
快速浏览一下如何 GPT 模型随着培训成本的上升而调整
法学硕士通过使用外部世界的表征来学习玩棋盘游戏
管理 LLM 没有简单的解决方案
专家难以解释 LLM 的工作原理
法学硕士和人类一样有能力
法学硕士不能只是“万事通”
模型比人们根据第一印象认为的要“聪明”

随着成本不断上升，法学硕士更“有能力”

可以预见，即使没有很酷的创新，法学硕士也会随着成本的增加而变得更加“有能力”。这里最主要的是可预测性，这在关于 GPT-4: 教了五到七个小模型，预算是最后一个的0.1%，然后据此预测一个大模型。对于一个特定任务的子样本的困惑度和指标的一般评估，这样的预测是非常准确的。这种可预测性对于依赖 LLM 开展业务的企业和组织非常重要，因为他们可以相应地制定预算并计划未来的开支。然而，值得注意的是，虽然成本增加可能会导致能力提高，但提高速度最终可能会趋于平稳，因此有必要投资于新的创新以继续推进。

快速浏览一下如何 GPT 模型随着培训成本的上升而调整

然而，作为不断增长的副产品，特定的重要技能往往会不可预测地出现。培训费用（更长时间的训练、更多的数据、更大的模型）——几乎不可能预测模型何时开始执行某些任务。我们更深入地探讨了这个话题刊文关于发展历史 GPT 楷模。图中显示了不同任务中模型质量提升的分布情况。只有大模型才能学习完成各种任务。该图突出显示了扩大规模的重大影响 GPT 模型他们在各种任务中的表现。然而，值得注意的是，这是以增加计算资源和环境影响为代价的。

法学硕士通过使用外部世界的表征来学习玩棋盘游戏

法学硕士经常学习和使用外部世界的表征。这里有很多例子，这里是其中之一：模型训练根据各个动作的描述来玩棋盘游戏，而无需看到比赛场地的图片，了解棋盘在每个动作中的状态的内部表示。然后可以使用这些内部表示预测未来动作和结果，使模型能够以高水平玩游戏。这种学习和使用表征的能力是关键机器学习的方面和人工智能。

管理 LLM 没有简单的解决方案

没有可靠的方法来控制 LLM 行为。尽管在理解和缓解各种问题（包括 ChatGPT 和 GPT-4 在反馈的帮助下），对于我们是否可以解决这些问题还没有达成共识。人们越来越担心，当未来创建更大的系统时，这将成为一个巨大的、潜在灾难性的问题。因此，研究人员正在探索新方法，以确保人工智能系统符合人类价值观和目标，例如价值调整和奖励工程。但要保证法学硕士的安全性和可靠性在复杂的现实场景中。

了解更多： OpenAI 组建50+专家团队强化 GPT-4的安全

专家难以解释 LLM 的工作原理

专家还不能解释 LLM 的内部运作。没有任何技术可以让我们以任何令人满意的方式说明模型在生成任何结果时使用了什么样的知识、推理或目标。这种可解释性的缺乏引起了人们对 LLM 决策的可靠性和公平性的担忧，尤其是在刑事司法或信用评分等高风险应用中。它还强调需要进一步研究开发更透明和负责任的人工智能模型。

法学硕士和人类一样有能力

尽管法学硕士的培训主要是为了书写文字时模仿人类行为，他们有潜力在许多任务上超越我们。这在下棋或围棋时已经可以看到。这是因为它们能够分析大量数据，并以人类无法比拟的速度根据分析做出决策。然而，法学硕士仍然缺乏人类所拥有的创造力和直觉，这使得他们不太适合许多任务。

了解更多： OpenAI 组建50+专家团队强化 GPT-4的安全

法学硕士不能只是“万事通”

法学硕士不得表达其创作者的价值观或在互联网选择中编码的价值观。他们不应重复刻板印象或阴谋论或试图冒犯任何人。相反，LLM 应该旨在为用户提供公正和真实的信息，同时尊重文化和社会差异。此外，他们应该接受定期测试和监控，以确保他们继续满足这些标准。

模型比人们根据第一印象认为的要“聪明”

基于第一印象对模型能力的估计通常会产生误导。很多时候，你需要提出正确的提示，建议一个模型，也许还可以展示示例，它会开始更好地应对。也就是说，它比乍看起来更“聪明”。因此，给模型一个公平的机会并为其提供必要的资源以发挥最佳性能至关重要。如果采用正确的方法，即使是看似不充分的模型也能以其功能让我们大吃一惊。

如果我们关注 BIG-Bench 数据集中的 202 个任务样本（它被特意设计得难以测试）语言模型从和到），那么作为一项规则（平均而言），模型随着规模的增加而显示质量的提高，但单独而言，任务中的指标可以：

逐渐改善，
大幅改善，
保持不变，
减少，
显示没有相关性。

所有这些导致无法自信地推断任何未来系统的性能。绿色部分特别有趣——这正是质量指标无缘无故急剧上升的地方。

阅读有关人工智能的更多信息：

标签：

免责声明

在与行信托项目指南，请注意，本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。重要的是，仅投资您可以承受损失的金额，并在有任何疑问时寻求独立的财务建议。如需了解更多信息，我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告，但市场状况如有变更，恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post，涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。他的文章每月吸引超过一百万用户的大量读者。他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。达米尔获得了物理学学士学位，他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。