成功率最高暴跌36.9%！南洋理工首个“模糊指令”测试，直击具身智能落地软肋

6350点击 2026-04-29 09:55

现在的大语言模型看起来似乎无所不能。

只要你对它下达“去把桌子上的红苹果拿过来”这样的指令，它就能做一份清晰的计划。

研究者们正在将这种能力迁移到机器人身上。

但真实世界的问题往往更为复杂，比如一个老人随口的几句话：

“你看看那个锅洗干净没？”

“好的，我检查过了。”

“行，那你把那家伙挪到外面去吧。”

在这个场景下，原本聪明的机器人是否会直接“死机”？它们能不能听懂这种日常的“糊涂话”，并且正确地完成人类要求呢？

成功率最高暴跌36.9%！南洋理工首个“模糊指令”测试，直击具身智能落地软肋

左图显示，基于现有大语言模型的机器人任务规划器能够理解带有明确指代 (Explicit REs)的清晰指令，但在多轮对话中，往往难以正确解析隐式指代 (Implicit REs)信息。

右图中，团队提出了REI-Bench框架，旨在研究真实人机交互场景中，人类指令中普遍存在的指代模糊性问题。

现有的具身智能大模型在具身智能上的应用，大多建立在一个理想化的假设上：人类的指令永远是清晰、完整且毫无歧义的。但这脱离了真实的人机交互场景。

为了量化并暴露这一缺陷，近日，来自南洋理工大学MARS Lab的研究团队，联合发布了系统化评估机器人处理“模糊人类指令”的测试基准REI-Bench。

在REI-Bench的测试下，当前主流任务成功率最高下降达36.9%。

这份研究希望引起研究界对这一被忽视问题的关注，从而激发深入的探索。

具身智能盲区：为什么需要REI-Bench？

在语言学中，人类之所以能听懂“那个东西”、“它”、“这个重物”，依赖于桥接推理理论 (bridging inference)，即通过上下文信息在已有记忆与当前表达之间建立联系，从而恢复指代对象。

由于人们默认交流双方拥有相同的桥接推理能力，人们习惯日常交流中普遍采用模糊指代来简化表达。对于老人、儿童或认知障碍患者而言，由于表达能力受限，更倾向于在语言中使用模糊的指代。

然而，纵观目前的具身智能任务设计，如ALFRED、VirtualHome等，几乎全是用清晰的显式指代，如“杯子”、“锅”等构建的。

成功率最高暴跌36.9%！南洋理工首个“模糊指令”测试，直击具身智能落地软肋

图中显示，整个具身智能任务流程是，从一个初始指令出发，依次进行：

（1）生成上下文记忆；（2）构建三种上下文变体：标准、带噪和精简；（3）在不同程度上将显式指代替换为隐式指代。

最终，基于指代表达类型与上下文变体的组合，团队构建出覆盖九种指代模糊等级的数据集。

基于此，研究团队融合了语言学中的语用学理论，构建了REI-Bench。该基准不是简单地把词汇变模糊，而是系统性地定义了 9 个层级的模糊性“考试”：

指代难度 3 级从完全清晰的“显式指代”，到半遮半掩的“混合指代”，再到极度依赖上下文推理的“隐式指代”。
上下文干扰 3 级模拟真实人类对话，分为标准上下文、带有同名干扰项的“噪声上下文”（比如对话里一直聊苹果手机，让机器人去拿水果苹果），以及缺失部分信息的“短上下文”。

主流框架在模糊指令前表现不佳

成功率最高暴跌36.9%！南洋理工首个“模糊指令”测试，直击具身智能落地软肋

他们测试了4种主流的机器人规划框架，并接入了6种轻量级大模型（这里给出典型结果，详细结果见论文原文）。

成功率最高暴跌36.9%！南洋理工首个“模糊指令”测试，直击具身智能落地软肋

△团队比较了三种大语言模型 (GPT-4o-mini、LLaMA3.1-8B、DeepSeekMath-7B)的表现，同时还包括“GPT-4o + SayCan”组合方案以及人类基线。

结果表明：

多轮对话导致成功率下降即便是没有任何模糊词汇的“标准上下文”多轮对话，LLaMA3.1-8B+SayCan的成功率也从基础的57.7%直接掉到了46.9%。现有模型对多轮上下文较为敏感。
隐式指代理解能力薄弱随着指令中隐式指代比例的增加，所有模型的成功率均有下降。基线模型（LLaMA3.1-8B+SayCan）在遇到模糊指令时，成功率下降7.4%到36.9%不等。

追问：它们到底错在哪了？

成功率最高暴跌36.9%！南洋理工首个“模糊指令”测试，直击具身智能落地软肋

△上排：当使用显式指代 (如“土豆”)时，大语言模型 (LLM)能够正确识别目标对象；但在面对隐式指代时，容易产生错误理解。中排：通过引入人类设计的反思提示，可以引导模型解析隐式指代，从而正确定位目标对象。下排：不同提示词方法的对比。

研究团队对错误原因进行了深度剖析，如他们所料，目标物体混淆的失误是主要原因。

然而值得注意的是，当引入反思性提示之后，大模型重新识别出正确目标。

因此，研究团队推断：当模型过于“急切”地想要完成任务时，就会忽视理解人类真正的含义。这一结果挑战了现有假设：只要将LLM集成到机器人系统中，它就能自然而然地理解人类复杂的语用逻辑。

团队在文中也提供了一个名为TOCC的轻量级即插即用的解法，通过前置指令重写，将指代解析与任务规划解耦，有效提高成功率。然而，团队认为这并非一个完美的解决方案，并且期待抛砖引玉，让此问题得到学术圈的重视。

论文标题：REI-BENCH: CAN EMBODIED AGENTS UNDERSTAND VAGUE HUMAN INSTRUCTIONS IN TASK PLANNING?论文：https://arxiv.org/pdf/2505.10872项目主页：https://jcx0110.github.io/rei-bench-project团队主页：https://marslab.tech/

参考资料[1] Clark H H. Bridging[C]. Theoretical issues in natural language processing. 1975.[2] Levinson S C. Pragmatics[M]. Cambridge University Press, 1983.[3] Shridhar M, Thomason J, Gordon D, et al. Alfred: A benchmark for interpreting grounded instructions for everyday tasks[C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 10740-10749.[4] Puig X, Ra K, Boben M, et al. Virtualhome: Simulating household activities via programs[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8494-8502.[5] Brohan A, Chebotar Y, Finn C, et al. Do as I can, not as I say: Grounding language in robotic affordances[C]. Conference on Robot Learning. PMLR, 2023: 287-318.

文章来自于微信公众号 "量子位"，作者 "量子位"

关键词: AI新闻 , 模型训练 , 具身智能 , REI-Bench

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0