Physical Intelligence 引入 MEMS 架构,为机器人提供完成现实世界任务所需的内存
简单来说
研究人员开发了多尺度具身记忆系统,该系统赋予机器人短期和长期记忆,使它们能够跟踪进度并完成复杂的任务,而不仅仅是执行孤立的动作。
多年来,真正能帮上忙的家用机器人的梦想似乎近在咫尺。机器人已经可以执行诸如“清洗煎锅”、“叠衣服”或“做三明治”之类的指令。在实验室环境下,这些系统展现出了令人印象深刻的灵巧性和精确度。然而,尽管机器人基础模型取得了快速发展,但一个根本性的功能却一直缺失:记忆。
能够执行单一任务的机器人与能够完成一项工作的机器人截然不同。清洁整个厨房、烹饪一顿饭或准备食谱所需的食材,需要的不仅仅是零散的技能,还需要连贯性——记住已经完成的工作、接下来需要完成的工作以及所有物品的位置。如果没有这种连贯性,即使是最强大的机器人也会变得出人意料地无能。
物理智能领域的研究人员现在正试图用一种名为多尺度具身记忆(MEM)的新架构来解决这一挑战——该系统旨在赋予机器人短期记忆和长期记忆,以便它们能够执行持续数分钟而不是数秒的任务。
研究结果暗示了一个重要的问题:机器人技术的未来可能更多地取决于更好的认知架构,而不是更好的机械手。
现代机器人已经拥有相当丰富的运动技能。它们可以抓取易碎物品、操作工具,并在杂乱的环境中穿梭。但如果让机器人打扫整个厨房——擦拭台面、收纳食品杂货、洗碗、整理餐具——它们的局限性就会很快显现出来。
问题不在于技能本身,而在于如何协调这些技能。复杂的任务需要持续的感知能力。机器人必须记住它已经打开过哪些橱柜,锅盖放在哪里,或者是否已经洗过碗碟。它还必须追踪移出视野的物体,并在执行新动作的同时保持对环境的感知。
人类认知能够毫不费力地做到这一点。而机器直到最近才开始具备这种能力。要存储机器人几分钟甚至几小时内观察到的每一个现象,在计算上是不可行的。但丢弃这些信息会导致混乱的行为——重复犯错、遗忘步骤,或者做出与先前决策相矛盾的行为。在机器人研究中,这种挑战有时被称为“因果混淆”,即系统错误地解读过去的事件并强化错误的行为。
结果:机器人虽然在简短的演示中看起来令人印象深刻,但在完成现实世界的任务时却举步维艰。
用于物理智能的记忆系统
MEM架构通过引入多层存储结构来解决这个问题。该系统并非将所有数据平均存储,而是将存储分为两种互补的形式:
短期视觉记忆利用高效的视频编码架构捕捉近期的观察结果。这使得机器人能够理解运动、跨帧追踪物体,并记住几秒钟前发生的事件——这对于翻转烤奶酪三明治或清洗餐具等精确操作至关重要。
与此同时,长期概念记忆以自然语言存储任务进度,而不是记住原始的视觉数据。defi每晚,机器人都会写简短的文字“笔记”来描述发生的事情——例如“我把锅放在水槽里”或“我从冰箱里取出了牛奶”。
这些摘要会成为机器人推理过程的一部分。实际上,机器会构建出自己对任务的叙述。系统的推理引擎随后会同时决定两件事:下一步要执行什么操作以及哪些信息值得记住。这种组合使得该模型能够跟踪长达十五分钟的任务——远远超过以往大多数机器人演示的时间。
MEM技术最引人入胜的功能之一是情境适应。机器人会犯错,这是不可避免的。但大多数机器人系统会不断重复这些错误,因为它们没有失败记忆。
简单的实验就能明显看出区别。在一个测试中,机器人试图拿起一根扁平的筷子。如果没有记忆功能,机器人会反复尝试同样的抓取方式,但都失败了。启用记忆功能后,机器人会记住失败的尝试,并尝试不同的方法——最终成功。
另一个例子是打开冰箱门。仅凭视觉数据,机器人无法立即判断冰箱门应该朝哪个方向打开。没有记忆功能的系统只会一遍又一遍地重复相同的动作。而有记忆功能的机器人会先尝试一个方向,记住失败的结果,然后再尝试另一侧。
这些细微的调整蕴含着深刻的意义:即在任务过程中进行学习的能力。机器人不再完全依赖训练数据,而是能够即时调整。
研究人员对这套具备记忆功能的系统进行了评估,任务难度逐渐增加。首先是一个相对简单的挑战:制作烤奶酪三明治。这需要短期记忆来掌握时间,同时还要完成一些精细的物理步骤,例如翻面包和装盘。
接下来是一项后勤任务:为食谱取食材。机器人必须记住它已经收集了哪些物品,它们的位置,以及抽屉和橱柜是否已关好。最后,它迎来了最具挑战性的场景:清洁整个厨房。
这意味着要把物品放回原位,洗碗,擦拭台面,并记录房间里哪些部分已经清洁过了。
具有结构化记忆的模型明显优于没有结构化记忆的版本,表现出更高的可靠性和任务完成率。
这一差异体现了机器人技术的一个关键转变。研究人员现在不再优化孤立的动作,而是构建能够持续执行工作流程的系统。
为什么说记忆是机器人技术的下一个前沿领域?
MEM 的更广泛意义在于,机器人技术正步入一个新阶段。几十年来,该领域一直专注于感知和控制:帮助机器感知世界并操控物体。而近年来,大型多模态模型显著提升了机器人理解指令和执行复杂运动行为的能力。
但随着这些能力的成熟,瓶颈已经转移。下一个挑战是认知连续性——使机器人能够在长时间运行中保持目标一致性。像MEM这样的记忆系统为这种连续性提供了支撑。机器人不再是逐个做出反应,而是可以维护一个关于自身行为、决策和环境的内部叙事。正是这种叙事使得复杂的行为得以涌现。
如果这种方法继续发展下去,其影响将远远超出厨房清洁。未来的机器人可能需要遵循持续数小时甚至数天的指令。想象一下,你告诉智能家居助手:
“我晚上6点到家——请做好晚饭,并在周三打扫房子。”
执行这样的请求需要解析冗长的指令、规划子任务、记住进度,并在出现问题时进行调整。
要长时间保存每次动作的原始视频记录是不可能的。因此,机器人很可能会依赖层级式记忆系统,将经验压缩成越来越抽象的表征。
MEMS是迈向这种架构的早期步骤。它表明,提升机器人性能的关键可能不在于更强大的电机或更灵敏的传感器,而在于更强大的记忆能力以及对记忆内容进行推理的能力。如果机器人最终能够记住它们正在做的事情,它们或许也最终能够完成任务。
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Alisa,一名热心记者 MPost专注于加密货币、人工智能、投资以及广阔的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。
更多文章
Alisa,一名热心记者 MPost专注于加密货币、人工智能、投资以及广阔的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。



