在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。
近日,上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队,提出了 "OWMM-Agent" 具身智能体——首个专为开放世界移动操作(OWMM)设计的多模态智能体 (VLM Agent) 架构,首次实现了全局场景理解、机器人状态跟踪和多模态动作生成的统一建模。
同时该工作通过仿真器合成智能体轨迹数据,微调了针对该任务的多模态大模型 OWMM-VLM,在真实环境测试下,该模型零样本单步动作预测准确率达 90%。
传统移动抓取机器人在家庭场景处理 “清理餐桌并将水果放回碗中” 这类开放指令时,往往需要依赖预先构建的场景 3D 重建或者语义地图,不仅耗时且难以应对动态环境。OWMM 任务的核心难点在于:
研究团队提出的 OWMM-Agent 架构,通过两大创新突破上述瓶颈:
1. 多模态 Agent 架构
通过将开放世界移动操作(OWMM)问题建模成多轮,多图推理和定位 (Grounding) 问题,让多模态大模型进行端到端的感知 - 推理 - 决策 - 状态更新过程。
图 1:OWMM-Agent 框架和动作接口设计
2. 多模态 Agent 微调数据合成
针对 VLM 基座模型在机器人领域的 “幻觉” 问题,团队设计了基于 Habitat 仿真平台的数据合成方案:
团队利用仿真合成的多模态数据,基于 Intern-VL 2.5 8B/38B 微调得到用于 OWMM 的专用模型 OWMM-VLM。
图 2: OWMM-VLM 模型
在模拟环境中,OWMM-VLM 模型展现出显著优势:
图 3:Habitat 仿真环境单步动作和完整 OWMM 序列测试结果
更值得关注的是真实环境测试:在 Fetch 机器人上,模型仅通过模拟数据训练,即实现了 90% 的零样本动作生成成功率(30 次测试中 27 次成功)。例如,在 “将豆奶盒从书桌移至会议桌” 任务中,模型准确检索目标位置、规划导航路径,并生成机械臂抓取坐标,展现出强泛化能力。在真机部署实验中,团队采用了 Robi Butler 工作提供的人类通过 VR 设备控制室内机器人系统的多模态接口,并迁移到 OWMM-Agent 框架中。
该研究首次证明,通过大规模模拟数据微调的 VLM 模型,可成为开放世界移动操作的通用基础模型。同时这篇工作也存在局限性,当前方法假设有一个相对理想的环境重建,并假设目标任务相关的观测已经在记忆中,且对复杂机械臂(如多指手)的控制能力有限。
随着老龄化社会对服务机器人需求的激增,OWMM-Agent 的突破为 “会听、会看、会做” 的通用家庭助手奠定了关键技术基础。或许在不久的将来,我们真能迎来 “一句话指挥机器人完成家务” 的智能生活。
文章来自于微信公众号“机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner