南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述
7059点击    2025-07-15 15:25

本文作者来自:南京大学、香港大学、中南大学、地平线、中国科学院计算所、上海交通大学、慕尼黑工业大学、清华大学。


当下,随着机器人与人工智能技术的飞速进展,“具身智能”(Embodied Intelligence)已成为业界与学界共同关注的核心课题。与纯感知或生成任务不同,具身智能要求智能体在复杂环境中自主感知、预测并执行动作,才能真正迈向通用智能(AGI)。而要实现这一宏大目标,物理模拟器与世界模型的深度融合被认为是最具潜力的路径:前者通过高度可控的虚拟环境,为算法训练提供安全、高效的多场景试错土壤;后者则模拟了从感知到决策的 “脑内演算” 过程,使智能体能够在动作之前,先在内部进行环境预测与策略规划。


这篇由南京大学、香港大学等机构学者撰写的综述论文 —— A Survey: Learning Embodied Intelligence from Physical Simulators and World Models,使用 25 张图、6 张表格、超 400 篇参考系统地梳理了两大技术如何协同推动机器人从 “会做” 向 “会想” 演进的全貌。



南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述





  • 论文题目:A Survey: Learning Embodied Intelligence from Physical Simulators and World Models
  • 工作内容:基于物理模拟器与世界模型的具身智能学习
  • 论文链接:https://arxiv.org/abs/2507.00917
  • 仓库链接:https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey


论文摘要


对通用人工智能(AGI)的追求使具身智能成为机器人研究的前沿课题。具身智能关注的是能够在物理世界中感知、推理并行动的智能体。要实现鲁棒的具身智能,不仅需要先进的感知与控制能力,还需具备将抽象认知扎根于现实交互中的能力。


在这一过程中,两项基础技术 —— 物理模拟器与世界模型 —— 已成为关键推动力量。物理模拟器为训练与评估机器人智能体提供了可控、高保真度的环境,使复杂行为的开发变得安全而高效。相比之下,世界模型为机器人赋予了对环境的内部表示能力,从而使其能够进行预测性规划和超越直接感知的自适应决策。


本文系统回顾了近年来通过物理模拟器与世界模型融合学习具身智能的研究进展。我们分析了这两者在提升智能体自主性、适应性与泛化能力方面的互补作用,并探讨了外部模拟与内部建模之间的协同关系,如何推动从模拟训练走向真实部署的跨越。通过整合当前的研究成果与开放问题,本文旨在为构建更强大、更具泛化能力的具身智能系统提供全面的视角。我们还维护了一个持续更新的文献与开源项目仓库,地址为:https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。


主要贡献:



  • 智能机器人能力分级标准: 提出一个涵盖自主性、任务处理能力、环境适应能力与社会认知能力四个关键维度的五级能力分级体系(IR-L0 至 IR-L4)。
  • 机器人学习技术分析: 系统回顾智能机器人在腿式运动(如双足行走、摔倒恢复)、操作控制(如灵巧操作、双手协调)与人机交互(如认知协作、社会嵌入)方面的最新技术进展。
  • 主流物理模拟器分析: 全面对比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模拟器的物理仿真能力、渲染质量与传感器支持能力。
  • 世界模型的最新进展: 首先回顾世界模型的代表性架构及其潜在作用,例如作为可控模拟器、动态建模器与奖励模型在具身智能中的应用。进一步探讨专为自动驾驶与关节型机器人设计的最新世界模型方案。


研究内容与结构一览



南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述




1、智能机器人五级能力分级(IR-L0 ~ IR-L4)



  • IR-L0:基础执行 —— 完全依赖人类指令,无环境感知。
  • IR-L1:规则响应 —— 有限的传感器驱动,能在封闭环境下执行预设任务。
  • IR-L2:感知自适应 —— 引入视觉、LiDAR 等多模态,具备基本路径规划与避障能力。
  • IR-L3:类人协作 —— 多轮对话、情感识别,能在动态场景中与人类协同工作。
  • IR-L4:完全自主 —— 具备自我生成目标、长期学习与伦理决策能力 。


2、机器人核心技术回顾



  • 运动能力:从 Model Predictive Control、Whole-Body Control,到基于深度强化学习的端到端策略;
  • 操控能力:单臂抓取到双臂协作,乃至全身动作控制,辅以 VLM/LLM 驱动的视觉 — 语言 — 动作一体化模型;
  • 交互能力:认知协作、物理安全与社会嵌入三大维度的最新进展 。


3、物理模拟器横评


回顾主流模拟平台(Webots、Gazebo、MuJoCo、Isaac Gym/Sim)的物理引擎精度、渲染质量及传感器组件支持;


对比其在异构硬件与大规模并行训练中的表现差异,并指出未来优化方向。


4、世界模型架构与应用


代表性结构:从预测网络、生成式模型到多任务复合型 “动态+奖励” 模型;


应用场景:自动驾驶中的轨迹预测、关节机器人中的仿真 — 现实闭环校准。


智能机器人分级标准



南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述


仿真器仿真能力对比



南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述




仿真器渲染能力对比



南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述



自动驾驶领域的世界模型代表性工作汇总



南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述




机器人领域的世界模型代表性工作汇总



南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述



文章来自公众号“机器之心”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md