现在的大语言模型看起来似乎无所不能。
只要你对它下达“去把桌子上的红苹果拿过来”这样的指令,它就能做一份清晰的计划。
研究者们正在将这种能力迁移到机器人身上。
但真实世界的问题往往更为复杂,比如一个老人随口的几句话:
“你看看那个锅洗干净没?”
“好的,我检查过了。”
“行,那你把那家伙挪到外面去吧。”
在这个场景下,原本聪明的机器人是否会直接“死机”?它们能不能听懂这种日常的“糊涂话”,并且正确地完成人类要求呢?

左图显示,基于现有大语言模型的机器人任务规划器能够理解带有明确指代 (Explicit REs)的清晰指令,但在多轮对话中,往往难以正确解析隐式指代 (Implicit REs)信息。
右图中,团队提出了REI-Bench框架,旨在研究真实人机交互场景中,人类指令中普遍存在的指代模糊性问题。
现有的具身智能大模型在具身智能上的应用,大多建立在一个理想化的假设上:人类的指令永远是清晰、完整且毫无歧义的。但这脱离了真实的人机交互场景。
为了量化并暴露这一缺陷,近日,来自南洋理工大学MARS Lab的研究团队,联合发布了系统化评估机器人处理“模糊人类指令”的测试基准REI-Bench。
在REI-Bench的测试下,当前主流任务成功率最高下降达36.9%。
这份研究希望引起研究界对这一被忽视问题的关注,从而激发深入的探索。
在语言学中,人类之所以能听懂“那个东西”、“它”、“这个重物”,依赖于桥接推理理论 (bridging inference),即通过上下文信息在已有记忆与当前表达之间建立联系,从而恢复指代对象。
由于人们默认交流双方拥有相同的桥接推理能力,人们习惯日常交流中普遍采用模糊指代来简化表达。对于老人、儿童或认知障碍患者而言,由于表达能力受限,更倾向于在语言中使用模糊的指代。
然而,纵观目前的具身智能任务设计 ,如ALFRED、VirtualHome等,几乎全是用清晰的显式指代,如“杯子”、“锅”等构建的。

图中显示,整个具身智能任务流程是,从一个初始指令出发,依次进行:
(1)生成上下文记忆;(2)构建三种上下文变体:标准、带噪和精简;(3)在不同程度上将显式指代替换为隐式指代。
最终, 基于指代表达类型与上下文变体的组合,团队构建出覆盖九种指代模糊等级的数据集。
基于此,研究团队融合了语言学中的语用学理论,构建了REI-Bench。该基准不是简单地把词汇变模糊,而是系统性地定义了 9 个层级的模糊性“考试”:

他们测试了4种主流的机器人规划框架,并接入了6种轻量级大模型(这里给出典型结果,详细结果见论文原文)。

△团队比较了三种大语言模型 (GPT-4o-mini、LLaMA3.1-8B、DeepSeekMath-7B)的表现,同时还包括“GPT-4o + SayCan”组合方案以及人类基线。
结果表明:

研究团队对错误原因进行了深度剖析,如他们所料,目标物体混淆的失误是主要原因。
然而值得注意的是,当引入反思性提示之后,大模型重新识别出正确目标。
因此,研究团队推断:当模型过于“急切”地想要完成任务时,就会忽视理解人类真正的含义。这一结果挑战了现有假设:只要将LLM集成到机器人系统中,它就能自然而然地理解人类复杂的语用逻辑。
团队在文中也提供了一个名为TOCC的轻量级即插即用的解法,通过前置指令重写,将指代解析与任务规划解耦,有效提高成功率。然而,团队认为这并非一个完美的解决方案,并且期待抛砖引玉,让此问题得到学术圈的重视。
论文标题:REI-BENCH: CAN EMBODIED AGENTS UNDERSTAND VAGUE HUMAN INSTRUCTIONS IN TASK PLANNING?论文:https://arxiv.org/pdf/2505.10872项目主页:https://jcx0110.github.io/rei-bench-project团队主页:https://marslab.tech/
参考资料[1] Clark H H. Bridging[C]. Theoretical issues in natural language processing. 1975.[2] Levinson S C. Pragmatics[M]. Cambridge University Press, 1983.[3] Shridhar M, Thomason J, Gordon D, et al. Alfred: A benchmark for interpreting grounded instructions for everyday tasks[C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 10740-10749.[4] Puig X, Ra K, Boben M, et al. Virtualhome: Simulating household activities via programs[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8494-8502.[5] Brohan A, Chebotar Y, Finn C, et al. Do as I can, not as I say: Grounding language in robotic affordances[C]. Conference on Robot Learning. PMLR, 2023: 287-318.
文章来自于微信公众号 "量子位",作者 "量子位"
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0