成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋
5997点击    2026-04-29 09:55

现在的大语言模型看起来似乎无所不能。


只要你对它下达“去把桌子上的红苹果拿过来”这样的指令,它就能做一份清晰的计划。


研究者们正在将这种能力迁移到机器人身上。


但真实世界的问题往往更为复杂,比如一个老人随口的几句话:


“你看看那个锅洗干净没?”

“好的,我检查过了。”

“行,那你把那家伙挪到外面去吧。”


在这个场景下,原本聪明的机器人是否会直接“死机”?它们能不能听懂这种日常的“糊涂话”,并且正确地完成人类要求呢?


成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋


左图显示,基于现有大语言模型的机器人任务规划器能够理解带有明确指代 (Explicit REs)的清晰指令,但在多轮对话中,往往难以正确解析隐式指代 (Implicit REs)信息。


右图中,团队提出了REI-Bench框架,旨在研究真实人机交互场景中,人类指令中普遍存在的指代模糊性问题。


现有的具身智能大模型在具身智能上的应用,大多建立在一个理想化的假设上:人类的指令永远是清晰、完整且毫无歧义的。但这脱离了真实的人机交互场景。


为了量化并暴露这一缺陷,近日,来自南洋理工大学MARS Lab的研究团队,联合发布了系统化评估机器人处理“模糊人类指令”的测试基准REI-Bench。


在REI-Bench的测试下,当前主流任务成功率最高下降达36.9%


这份研究希望引起研究界对这一被忽视问题的关注,从而激发深入的探索。


具身智能盲区:为什么需要REI-Bench?


在语言学中,人类之所以能听懂“那个东西”、“它”、“这个重物”,依赖于桥接推理理论 (bridging inference),即通过上下文信息在已有记忆与当前表达之间建立联系,从而恢复指代对象。


由于人们默认交流双方拥有相同的桥接推理能力,人们习惯日常交流中普遍采用模糊指代来简化表达。对于老人、儿童或认知障碍患者而言,由于表达能力受限,更倾向于在语言中使用模糊的指代。


然而,纵观目前的具身智能任务设计 ,如ALFRED、VirtualHome等,几乎全是用清晰的显式指代,如“杯子”、“锅”等构建的。


成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋


图中显示,整个具身智能任务流程是,从一个初始指令出发,依次进行:


(1)生成上下文记忆;(2)构建三种上下文变体:标准、带噪和精简;(3)在不同程度上将显式指代替换为隐式指代。


最终, 基于指代表达类型与上下文变体的组合,团队构建出覆盖九种指代模糊等级的数据集。


基于此,研究团队融合了语言学中的语用学理论,构建了REI-Bench。该基准不是简单地把词汇变模糊,而是系统性地定义了 9 个层级的模糊性“考试”:


  1. 指代难度 3 级从完全清晰的“显式指代”,到半遮半掩的“混合指代”,再到极度依赖上下文推理的“隐式指代”。
  2. 上下文干扰 3 级模拟真实人类对话,分为标准上下文、带有同名干扰项的“噪声上下文”(比如对话里一直聊苹果手机,让机器人去拿水果苹果),以及缺失部分信息的“短上下文”。


主流框架在模糊指令前表现不佳


成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋


他们测试了4种主流的机器人规划框架,并接入了6种轻量级大模型(这里给出典型结果,详细结果见论文原文)。


成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋


团队比较了三种大语言模型 (GPT-4o-mini、LLaMA3.1-8B、DeepSeekMath-7B)的表现,同时还包括“GPT-4o + SayCan”组合方案以及人类基线。


结果表明:


  • 多轮对话导致成功率下降即便是没有任何模糊词汇的“标准上下文”多轮对话,LLaMA3.1-8B+SayCan的成功率也从基础的57.7%直接掉到了46.9%。现有模型对多轮上下文较为敏感。
  • 隐式指代理解能力薄弱随着指令中隐式指代比例的增加,所有模型的成功率均有下降。基线模型(LLaMA3.1-8B+SayCan)在遇到模糊指令时,成功率下降7.4%到36.9%不等。


追问:它们到底错在哪了?


成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋


上排:当使用显式指代 (如“土豆”)时,大语言模型 (LLM)能够正确识别目标对象;但在面对隐式指代时,容易产生错误理解。中排:通过引入人类设计的反思提示,可以引导模型解析隐式指代,从而正确定位目标对象。下排:不同提示词方法的对比。


研究团队对错误原因进行了深度剖析,如他们所料,目标物体混淆的失误是主要原因。


然而值得注意的是,当引入反思性提示之后,大模型重新识别出正确目标。


因此,研究团队推断:当模型过于“急切”地想要完成任务时,就会忽视理解人类真正的含义。这一结果挑战了现有假设:只要将LLM集成到机器人系统中,它就能自然而然地理解人类复杂的语用逻辑。


团队在文中也提供了一个名为TOCC的轻量级即插即用的解法,通过前置指令重写,将指代解析与任务规划解耦,有效提高成功率。然而,团队认为这并非一个完美的解决方案,并且期待抛砖引玉,让此问题得到学术圈的重视。


论文标题:REI-BENCH: CAN EMBODIED AGENTS UNDERSTAND VAGUE HUMAN INSTRUCTIONS IN TASK PLANNING?论文:https://arxiv.org/pdf/2505.10872项目主页:https://jcx0110.github.io/rei-bench-project团队主页:https://marslab.tech/


参考资料[1] Clark H H. Bridging[C]. Theoretical issues in natural language processing. 1975.[2] Levinson S C. Pragmatics[M]. Cambridge University Press, 1983.[3] Shridhar M, Thomason J, Gordon D, et al. Alfred: A benchmark for interpreting grounded instructions for everyday tasks[C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 10740-10749.[4] Puig X, Ra K, Boben M, et al. Virtualhome: Simulating household activities via programs[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8494-8502.[5] Brohan A, Chebotar Y, Finn C, et al. Do as I can, not as I say: Grounding language in robotic affordances[C]. Conference on Robot Learning. PMLR, 2023: 287-318.


文章来自于微信公众号 "量子位",作者 "量子位"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0