2023 年 5 月 15 日

法学硕士课程：在复杂情况下微调神经模型的新途径

by 达米尔亚拉洛夫

发布时间：15 年 2023 月 3 日上午 42:15 更新日期：2023 年 3 月 42 日上午 XNUMX:XNUMX

by 卡罗琳娜·加斯茨

编辑和事实核查：15 年 2023 月 3 日上午 42:XNUMX

简单来说

作者提出了一种称为 LLM Programs 的替代路径，可以将其视为情境学习的发展。

通过 LLM 计划解决问题的关键是能够将问题的解决方案分解为一系列更简单的步骤。

LLM 定制有两个主要领域：微调（或额外训练）预训练基础模型和上下文学习。微调需要大量的计算资源、数据收集和基础设施来执行此操作，然后托管经过微调的模型。同时，情境学习涉及使用解决问题的示例来编译正确的提示，例如思维链 (CoT)。然而，存在一些困难，例如可以提交给模型的文本大小有限，以及在复杂的多遍提示中，步骤可能会相互干扰，模型可能会被某些东西分散注意力现在不应该分心。作者提出了一种替代路径，称为法学硕士课程，这可以被认为是情境学习的发展。

推荐： 提示工程终极指南 2023

LLM 内置于程序中（在传统的编程语言，例如，在 Python 中）。该外部代码负责存储状态并逐步维护模型。它有几个主要优点：编程语言适应于此，可用上下文的大小增加，并且步骤不会相互干扰。通过法学硕士课程解决问题的关键是能够将问题的解决方案分解为一系列更简单的步骤。这种方法与以前的工作不同，以前的模型使用外部工具，例如计算器或代码解释器来维持状态。这种方法很好，因为可以用这种方式描述复杂且分散的任务，从而更容易测试、调试和评估质量。

此外，步骤之间没有干扰，使得使用 LLM 更容易。问答系统也不是新的；他们早在法学硕士之前就存在了。现在答题任务是怎么解决的？

网站经常更新，所以冷冻模型不是一个选项；它很快就会过时，并且无法回答有关新产品的问题。为每次更新不断地重新训练模型是不现实的选择：它既昂贵又耗时。相反，网站的页面通常被编入索引，放入某种数据库中，并且通常是矢量化的。根据用户的请求，相关文档被提取并作为上下文发送给 LLM。

在这样的范式下，问题自然是通过LLM Program来解决的。作为奖励，它成为可能实现不完全适合上下文的更复杂的多通道逻辑。

测试于 StrategyQA数据集包含二元分类问题，其解决方案涉及多路推理。就像“阳光能穿透黑海的最深处吗？”。要回答，你需要找出最大深度（2公里）和光线穿透水的深度（1公里），然后得出结论。让我们看一下另一个示例问题：“亚里士多德使用笔记本电脑吗？” 这个问题不像“笔记本电脑发明时亚里士多德还活着吗？”那样直截了当，也没有明确遵循推理步骤的顺序。做。该数据集侧重于此类序列是隐含的问题。数据集中只有 2,780 个问题，其中只有 918 个具有加强推理所有步骤的证据的段落。在目前的工作中，它仅限于这个子集；否则，我们将不得不依赖 LLM 在预训练期间学习一些事实。

默认情况下，OPT-175B LLM 不太擅长遵循说明；它不必微调指令或对话数据。为解决证据支持的问答问题，分为数据过滤阶段和树搜索阶段。

在过滤阶段，如果有问题，开发人员会检查所有段落并选择最相关的段落。例如，通过几次提示，要求 LLM 回答（是/否）给定段落是否与所提问题相关。在 StrategyQA 的 300 个子集上进行测试，其中每个问题都与一个段落匹配，无论相关与否，50/50。 OPT-175B 和 text-davinci-002 没有更高的质量比随机基线：高达 56%。更先进的 11B Tk-指令也好不到 61.6%。

由于这种方法的质量很差，因此提出了一种替代方法，即考虑问题的平均负对数似然 (NLL) 并结合前面的文本段落，然后对结果进行排名。在数据集上进行评估，其中每个问题有 100 个段落，只有一个是相关的（因此随机猜测给出 1%）。我们得到了 1% 的 top-79 准确率和 5% 的 top-93 准确率。对于此计算，您通常需要访问模型本身，这并不总是在 API 中完成。

接下来是构建输出链的阶段。这是通过搜索以问题为根的树来完成的，在每个级别上，都有许多段落和可能的证据用作生成下一步的上下文。通过树的每条路径都是一个潜在的输出链。对所有可能的链下结论是不现实的，因此对所有可用的链进行排序，并扩展排名最高的链。这是波束搜索的一种变体。当做出响应或已超过允许的最大步数时，该过程将停止。

最重要的细节是为树搜索步骤测试的两种排序策略。第一个策略是基于整个链的平均 NLL，而第二个策略是看 NLL 中有和没有段落（P）、有和没有问题（Q）的平均差异。在 StrategyQA 提供的 918 个问题上，这种方法相对于 CoT 基线（60%）显着提高了答案质量；两个搜索选项都给出了大约 66%（增量略高的策略）。如果提交golden facts，质量就变成81%左右，这是OPT的上限。 Darklang 似乎要去某个地方，但方式略有不同。

文章基于Telegram 发表.

阅读有关人工智能的更多信息：

标签：

免责声明

在与行信托项目指南，请注意，本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。重要的是，仅投资您可以承受损失的金额，并在有任何疑问时寻求独立的财务建议。如需了解更多信息，我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告，但市场状况如有变更，恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post，涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。他的文章每月吸引超过一百万用户的大量读者。他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。达米尔获得了物理学学士学位，他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。