Is GPT-4 想要给机器人增压吗？为什么 RT-2 改变了一切

by 达米尔亚拉洛夫

发布时间：01 年 2023 月 3 日凌晨 58:01 更新时间：2023 年 3 月 58 日凌晨 XNUMX:XNUMX

by 丹尼尔·米亚金

编辑和事实核查：01 年 2023 月 3 日凌晨 58:XNUMX

简单来说

谷歌 DeepMind 开发了视觉语言模型应用程序端到端机器人控制，重点关注他们跨领域概括和转移知识的能力。

RT-2模型旨在生成能够编码大量信息的序列，已经在各种场景下进行了测试，包括不熟悉的物体、不同的背景和不同的环境。

RT-2 模型在适应新条件方面优于其一些前身，这主要归功于其扩展的语言模型。

谷歌 DeepMind 研究视觉语言模型应用，重点关注其端到端机器人控制的潜力。这项调查旨在确定这些模型是否能够广泛推广。此外，它还调查了某些通常与扩展语言模型相关的认知功能（例如推理和计划）是否可以在这种情况下出现。

Is GPT-4 想要给机器人增压吗？为什么 RT-2 改变了一切 — 信用： Metaverse Post / Stable Diffusion

这种探索背后的基本前提与大型语言模型（LLM）的特征有着内在的联系。这样的模型旨在生成任何能够编码大量信息的序列。这不仅包括像Python这样的通用语言或编程代码，还包括特定的命令可以指导机器人动作.

为了正确看待这一点，请考虑模型理解特定字符串序列并将其转换为可操作的机器人命令的能力。作为说明，可以通过以下方式解码生成的字符串，例如“1 128 91 241 5 101 127 217”：

第一位数字 XNUMX 表示任务仍在进行中且尚未完成。
随后的三元组数字 128-91-241 表示空间三个维度上的相对且标准化的转变。
最后一组，101-127-217，精确定位了机器人功能臂段的旋转程度。

这样的配置使机器人跨六个自由度修改其状态。画一个平行线，就像语言模型 RT-2 模型从互联网上的大量文本数据中吸收一般思想和概念，从基于网络的信息中提取知识来指导机器人动作。

其潜在影响是巨大的。如果一个模型暴露在一组精心设计的轨迹中，这些轨迹本质上表明“为了实现特定的结果，机器人的抓取机构需要以特定的方式移动”，那么按理说，变压器可以生成符合以下条件的连贯动作：这个输入。

评估中的一个关键方面是能力执行培训期间未涵盖的新任务。这可以通过几种不同的方式进行测试：

1) 不熟悉的物体：当模型遇到未经训练的对象时，它能否复制任务？这方面的成功取决于将来自相机的视觉输入转换为语言模型可以解释的向量。然后，该模型应该能够辨别其含义，将术语与其现实世界中的对应术语联系起来，然后引导机械臂采取相应的行动。

2) 不同背景：当由于任务位置的背景已完全改变而导致大部分视觉提要包含新元素时，模型如何响应？例如，桌子的变化，甚至照明条件的变化。

3) 多样化的环境：延伸上一点，如果整个位置本身不一样怎么办？

对于人类来说，这些场景似乎很简单——当然，如果有人可以在房间里扔掉一个罐子，他们也应该可以在户外这样做，对吗？（顺便说一句，我观察到公园里的一些人正在努力完成这项看似简单的任务）。然而，对于机械来说，这些都是有待解决的挑战。

图形数据显示，RT-2 模型在适应这些新条件方面优于其一些前代模型。这种优势很大程度上源于利用了广泛的语言模型，该模型在训练阶段处理的大量文本使其更加丰富。

研究人员强调的一个限制是该模型无法适应全新的技能。例如，如果它没有接受过训练，它就无法理解从左侧或右侧举起物体。相比之下，语言模型如 ChatGPT 毫不费力地克服了这个障碍。通过处理无数任务中的大量数据，这些模型可以快速破译新的请求并对其采取行动，即使它们以前从未遇到过这些请求。

传统上，机器人使用复杂系统的组合进行操作。在这些设置中，高级推理系统和基础操纵系统经常在没有有效通信的情况下进行交互，类似于玩游戏的“手机坏了”。想象一下在精神上概念化一个动作，然后需要将其传递给你的身体来执行。新推出的 RT-2 模型简化了这一过程。它使单一语言模型能够进行复杂的推理，同时向机器人发送直接命令。它表明，只需最少的训练数据，机器人就可以执行它尚未明确学习的活动。

例如，为了使旧系统能够丢弃废物，他们需要进行专门的培训来识别、捡起和处置垃圾。相比之下，RT-2 已经对废物有了基本的了解，无需有针对性的训练即可识别废物，甚至无需事先指导即可处理废物。考虑一下这个微妙的问题：“什么构成浪费？” 这是一个具有挑战性的概念，很难形式化。薯片袋或香蕉皮在消费后从物品转变为废物。这些错综复杂的事情不需要明确的解释或单独的培训； RT-2 使用其固有的理解来破译它们并采取相应的行动。

以下是这一进步至关重要的原因及其未来影响：

语言模型（如 RT-2）充当包罗万象的认知引擎。它们跨领域概括和转移知识的能力意味着它们能够适应不同的应用程序。
研究人员故意没有采用最先进的模型进行研究，目的是确保每个模型在一秒内做出响应（意味着机器人的动作频率至少为 1 赫兹）。假设，整合这样的模型 GPT-4 的网络优越的视觉模型可能会产生更引人注目的结果。
综合数据仍然稀疏。然而，从当前状态过渡到从工厂生产线到家务劳动的整体数据集，预计需要大约一到两年的时间。这是一个初步估计，因此该领域的专家可能会提供更精确的结果。数据的涌入将不可避免地推动重大进步。
虽然 RT-2 是使用特定技术开发的，但还存在许多其他方法。未来可能会融合这些方法，进一步增强机器人能力。一种前瞻性的方法可能涉及使用人类活动视频来训练机器人。无需独家录制——TikTok 和 YouTube 等平台提供了大量此类内容。

阅读有关人工智能的更多信息：

标签：

免责声明

在与行信托项目指南，请注意，本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。重要的是，仅投资您可以承受损失的金额，并在有任何疑问时寻求独立的财务建议。如需了解更多信息，我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告，但市场状况如有变更，恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post，涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。他的文章每月吸引超过一百万用户的大量读者。他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。达米尔获得了物理学学士学位，他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。