从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

9166点击 2025-11-12 09:29

复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni，统⼀视觉、⽂本、听觉与动作模态，实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据，引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。

在⽇常⽣活中，⼈类很少发出⽣硬的命令式指令⸺「把杯子放到桌上」。更多时候，我们的真实意图隐藏在对话、语⽓、甚⾄环境声音中。

「这果汁好酸啊」，其实意味着想换别的饮料；听到雷声骤起，就知道该去关窗收⾐；从声音辨出是爷爷在说话，会主动问他是否想喝最爱的热茶⽽不是可乐；在多⼈同时说话的场景中，还要分清谁才是发出指令的⼈。

现在，机器⼈终于能听懂这些「潜台词」了！复旦、上海创智学院、与新加坡国立大学联合发布 RoboOmni，不仅重新定义了机器⼈交互的「情境指令」新范式，更通过全模态端到端的统⼀架构，让机器⼈⾸次具备了「察⾔观⾊」的认知能力。

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

论文标题：RoboOmni: Proactive Robot Manipulation in Omni-modal Context
论⽂地址：https://arxiv.org/pdf/2510.23763
代码地址：https://github.com/OpenMOSS/RoboOmni
模型 & 数据地址： https://huggingface.co/collections/fnlp/roboomni
项⽬主⻚：https://OpenMOSS.github.io/RoboOmni

具身交互范式革命：从「显式指令」到「情境指令」

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

图 1：根据指令类型与输⼊对机器⼈操控模型的分类。RoboOmni 通过整合跨模态情境指令，实现了端到端多模态交互与动作执行的⼀体化。

当前主流的 VLA 模型存在两⼤局限：（1）现有模型⼤多依赖于精确、显式的指令（如「拿起苹果」），⽆法理解隐含的意图。（2）现有⽅法的指令输⼊严重依赖于⽂本，即便使⽤语音，也需要先通过 ASR （Automatic Speech Recognition）技术转成⽂字，这丢失了语调、情感、说话⼈身份等副语⾔关键信息，更⽆法感知⻔铃、雷声等环境声音的语义。

这意味着，过去的机器⼈是⼀个需要「精确编程」的迟钝执⾏者，⽽⾮⼀个能「察⾔观⾊」的智能伙伴。

复旦联合新国立提出的「跨模态情境指令」 (contextual instrcution) 新范式，旨在彻底改变这⼀现状。它要求机器⼈能像⼈⼀样，主动融合语音对话、环境声音和视觉观察，从多模态上下⽂中推断出⽤户的真实意图。

从被动到主动：不再是等待明确的「关窗」指令，⽽是在听到雷声、看到阳台⻔开着时，主动询问：「需要我关窗吗？」
从单模态到全模态：同时理解语音中的情感倾向（如不满的语⽓）、说话⼈身份（是妈妈的需求还是⼥⼉的？）、环境声音（⻔铃、警报、厨房噪音）以及视觉观察（画⾯中的物体状态和⼈物关系）的语义。

这不再是简单的指令执⾏，⽽是让机器⼈具备了真正的情境理解能力。它就像⼀个贴⼼的私⼈助理，能够从⼀句嘀咕、⼀段对话和周围的环境中读懂潜台词，让服务变得⾃然、主动且精准。

RoboOmni 架构：全模态端到端统一模型设计

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

图 2：RoboOmni 采⽤ Perceiver-Thinker-Talker-Executor 的模型结构，通过在共享表征空间内统⼀视觉、⽂本、听觉与动作模态，实现动作⽣成与语音输出的协同控制。

为解决传统⽅案的局限，研究团队提出了 RoboOmni⸺⼀个基于全模态⼤模型的端到端框架，真正实现了从意图识别、交互确认到动作执⾏的完整闭环。与需要将语音转⽂字（ASR）的「拼接」系统不同，RoboOmni 在⼀套统⼀的模型中，直接融合语音、环境声音和视觉信号来推断意图，并能通过语音交互进⾏确认，输出动作 token 执⾏操作。

其核心是「感知-思考-回应- 执行」(Perceiver-Thinker-Talker-Executor) 的统⼀端到端架构：

统一感知 (Perceiver)：作为「眼睛」和「⽿朵」，它将摄像头看到的画⾯、⻨克⻛听到的语⾳和环境声⾳，统⼀编码到同⼀个语义空间里。这意味着，⼀声「雷响」和画⾯中的「开着的窗户」被关联起来理解，为后续推理打下基础。
中央思考 (Thinker)：作为「大脑」，它基于强⼤的 Qwen2.5-Omni 模型构建。它接收融合后的多模态信息，在⼀个统⼀的词表空间⾥进⾏推理，并⽣成交互⾏为。输出内容包含文本回复和机器⼈动作 token 的序列，实现了感知、语⾔与控制的深度融合。
自然回应 (Talker)：作为「嘴巴」，它让机器人能够直接进⾏语⾳交流。它接收 Thinker 的潜空间表示，⽣成⾃然、流畅的语⾳波形，从⽽实现与⼈的多轮、⽆缝语⾳对话。
精准执⾏ (Executor)：作为「双⼿」，它负责将 Thinker ⽣成的动作 token 解码为机器⼈可以执⾏的精确命令。它采⽤ FAST + 动作编码技术，能够流畅地控制 7 ⾃由度机械臂完成各种复杂操作。

简⽽⾔之，RoboOmni 通过统⼀端到端架构设计实现了：

全模态统⼀建模：从根源上避免了 ASR 转写的信息损失，能更好地保留语调、情感和环境语义，从⽽实现真正的「情境理解」。
闭环具身智能：将「全模态」的概念从感知和认知，真正拓展到了⾏动层⾯，在⼀个模型内完成了「感知 - 推断 - 确认 - 执⾏」全流程。
双向自然交互：⽀持语⾳回应与动作执⾏的双通道输出，机器⼈不仅能听会说，还能在对话中确认意图并执⾏任务，实现了⾃然的⼈机协作。

OmniAction：为「具身情境认知」量身打造的大规模数据集

主动式机器⼈必须从⾳频和视觉观察中推断隐含意图，但现有数据集缺乏包含视觉 - ⾳频模态组合以及意图推理所需的推断指令。

为了弥补这⼀不⾜，研究团队构建了 OmniAction⸺⾸个大规模具身情境指令数据集，包含基于语⾳、环境⾳频、声⾳事件和视觉的情境指令和动作轨迹。

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

图 3：OmniAction 数据集构建流程。

海量规模与丰富多样性

141,162 条多模态样本，覆盖 112 种技能与 748 种物体。
5,096 种独特音色，精细覆盖⽼年 / 中年 / ⼉童和男性 / ⼥性的不同身份组合，还原真实多样的⽤户⾳⾊。
2,482 种环境音效与 640 种生活背景噪音，构建出从厨房翻炒到客厅电视的真实听觉场景。

六大情境指令：精心设计的「认知考题」

OmniAction 的核⼼在于其六大情境指令类型，它们共同构成了考验机器⼈「情商」与「智商」的⽴体维度：

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

高标准数据构建流水线

为确保数据的真实性与⾼质量，研究团队采⽤三阶段严谨流程：

文本剧本生成：基于真实机器⼈任务，利⽤⼤模型将直接指令改写为富含情境的多⼈⾃然对话。
高保真听觉实现：采⽤ MOSS-TTSD、CosyVoice 等语⾳合成与声⾳克隆技术，⽣成带有真实⼝吻、语⽓和重叠对话的⾳频，并精准混⼊环境⾳与背景噪⾳。
严格人工验证：经过严格的⼈⼯校验，确保任务意图能够被准确恢复，⼀致率⾼达 98.7%。

推出 OmniAction-LIBERO 仿真基准

为推动领域发展，研究团队还基于 LIBERO 基准发布了 OmniAction-LIBERO 仿真基准。它提供了 240 个涵盖不同指令类型的评估任务，并包含真实志愿者录⾳版本，为公平、系统地评估模型的「情境理解」能力树⽴了新标杆。

实验结果：全面超越传统级联方案，从指标到体验的跨越

为全⾯评估 RoboOmni，研究团队设置了严谨的对⽐实验。基线模型涵盖了当前最具代表性的开源 VLA 模型，并采⽤两种主流范式进⾏对⽐：其⼀是真值文本基线（直接输⼊原始⽂本，避免了 ASR 带来的⽂字识别错误），其⼆是 ASR 文本基线（语⾳先经 Whisper 转⽂字再输⼊，代表当前语⾳交互的常⻅⽅案）。这两种基线旨在验证端到端全模态处理的必要性。

核心突破：情境指令任务完成率碾压级领先

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

表 1：RoboOmni 在 OmniAction-LIBERO 基准上的性能表现，在四⼤任务套件、六种情境指令下均⼤幅领先。

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

关键发现：

端到端音频处理的必要性：级联基线（即便使⽤真值⽂本）⽆法捕捉⾳⾊、语调、重叠语⾳等副语⾔信息，⽽ RoboOmni 通过直接处理⾳频信号，完整保留了这些关键情境线索。
意图模糊下的鲁棒识别：在包含多个可操作物体和动作选择的意图复杂任务中（Goal 和 Object 任务），基线模型性能急剧下降（最佳基线仅 16.3%），⽽ RoboOmni 在这些任务中仍保持 85.8% 和 84.0% 的⾼成功率。
不同情境指令的认知难度差异：对模型⽽⾔，双⼈对话和重叠语⾳任务相对简单（约 88%），⽽⾮语⾳线索任务最具挑战（约 82%），因其需要识别环境声⾳并与其他模态信息整合。

真实世界表现：从仿真到现实的完美迁移

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

图 4：RoboOmni 在 WidowX 250S 真实机器⼈上的成功案例演示。

真机演示（图 4）进⼀步验证了其能力可⽆缝迁移到现实世界。RoboOmni 展现出三重核心能力：

精准的意图识别能力：能够准确融合视觉和听觉线索来推断⽤户意图。例如通过语⾳内容识别⽬标物体，同时通过视觉场景判断正确的放置位置（如识别出当前场景为吃⽕锅，需要放置容器是⽕锅⽽⾮其他）。
有效的主动交互机制：在推断出⽤户的潜在意图后，会主动提出澄清性问题（如「是否需要我……？」），并在获得⽤户确认后才执⾏动作，确保每个⾏动都经过深思熟虑且符合⽤户真实意图。
可靠的物理执行性能：能够在存在多个⼲扰物的复杂场景中准确定位⽬标物体，并将其精确放置到指定位置，展现了在真实环境中的稳健操作能力。

主动服务能力：不仅是执行，更是主动服务

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

图 5：主动服务能⼒的定性与定量评估。左图显示意图识别准确率，右图为交互案例对⽐。

真正的智能体现在协作中。如图 5 所示，在专⻔的主动协助能力评估中，RoboOmni 的意图识别准确率⾼达 88.9%，显著优于其他模型（GPT-4o+ASR 仅为 55.6%）。

更值得称道的是其「认知智能」：（1）主动澄清机制：当遇到「蛋饺」等模糊指令时，不会盲⽬执⾏，⽽是主动询问「要我把蛋饺放进⽕锅吗？」；（2）多模态完美融合：在⻔铃场景中，能够结合对话上下⽂和环境声⾳信号，提出「我听到⻔铃了⸺应该把⻥丸放进⽕锅吗？」；（3）自然对话流维护：始终使⽤「您希望我…… 吗？」等尊重性、协作性的语⾔模式，与基线模型常常发出的直接命令或陈述形成鲜明对⽐。这⼀系列能力使得 RoboOmni 不再是简单的指令执⾏器，⽽是能够真正理解情境、主动提供服务的智能伙伴。

架构优势：效率与性能兼得

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

图 6：(a) 使⽤ OmniAction 预训练能极⼤提升训练效率 (b) 端到端建模显著提升推理效率，延迟仅为级联方案的⼀半。

RoboOmni 的优势不仅在于效果，更在于效率。深⼊分析表明，其架构设计和⼤规模预训练带来了巨⼤增益：如图 6 (a) 所示，经过 OmniAction 预训练的模型，仅需 2K 步微调即可达到近 90% 准确率，展现了卓越的训练效率；如图 6 (b) 所示，端到端架构消除了 ASR 瓶颈，其推理速度是传统级联⽅案的近两倍（延迟仅为 0.49 倍）。

未来展望：通向通用具身智能之路

RoboOmni 的出现标志着机器⼈交互范式从「服从命令的⼯具」向「洞察意图的伙伴」的根本转变。这⼀转变体现在三个层⾯：

在交互上，从「精确指令 - 呆板执⾏」变为「⾃然交流 - 主动理解 - 确认执⾏」；
在感知上，从单模态⽂本拓展到语音、视觉、环境声音的全模态融合；
在架构上，从存在信息损失的级联系统演进为端到端的统⼀模型。

RoboOmni 所代表的不仅是技术突破，更是交互范式的⾰新。当机器⼈能够理解「⾔外之意」，能够「察⾔观⾊」，⼈与机器的关系将从单向命令变为双向协作。它让技术隐于⽆形，智能融于⾃然，最终实现让技术适应⼈、⽽⾮让⼈适应技术的终极⽬标。

文章来自于“机器之心”，作者 “机器之心”。

关键词: AI , 模型训练 , RoboOmni , 具身智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales