从 IROS 2025谈起,智能机器人何时迎来「GPT式爆发」? | GAIR Live 019

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
从 IROS 2025谈起,智能机器人何时迎来「GPT式爆发」? | GAIR Live 019
9827点击    2025-11-12 09:30

从 IROS 2025谈起,智能机器人何时迎来「GPT式爆发」? | GAIR Live 019


机器人觉醒:控制范式退场,认知时代降临


2025年10月,IROS(国际智能机器人与系统会议)在全球机器人从业者的目光中落幕。作为行业最具影响力的学术与产业盛会,本届在杭州召开的IROS的“中国印记”与“具身智能转向”尤为醒目——展台上,国产具身智能企业扎堆亮相,灵巧手、低成本机械臂等硬件技术刷新全球认知;会场内,“Learning驱动具身智能”的论文占比突破60%,标志着机器人从“传统控制工具”向“智能认知主体”的范式转移。


当“具身智能”从实验室热词走向产业实践,当硬件迭代与大模型技术碰撞出真实的商业可能,雷峰网AI科技评论特别邀请三位横跨学界与业界的嘉宾:上海交通大学计算机学院助理教授、上海AI Lab青年研究员穆尧、SOMA Robotics创始人陈天一、 科罗拉多大学助理教授李正雄,共同解码IROS 2025背后的具身智能前沿趋势。


在讨论中,嘉宾们的观点围绕“IROS观察”“技术进化”“商业落地”三大核心层层展开:


  • IROS现场的“变与不变”:最鲜明的“变”是中国企业的集体崛起,“国产灵巧手”从“跟随者”变成“引领者”;最核心的“不变”是“硬件驱动科研”的逻辑。传统运动控制论文让位于“具身智能学习”,真机数据训练与闭环反馈控制成为新主流;


  • 具身智能的“认知升级”:嘉宾们一致认为,“从控制到理解决策”是具身智能的核心趋势,这种“大脑(理解决策)+小脑(控制执行)”的组合,正在让机器人从“能做事”走向“会思考”;


  • Sim2Real的“实用边界” :对于“Sim2Real是否接近实用”,嘉宾们给出“分场景判断”:如物料分拣、零件分类等刚体任务已能通过Sim2Real落地,但复杂场景仍需突破,流体的物理模拟、柔性体的多面接触,仍是Sim2Real的“卡脖子”问题,而“安全验证”则是Sim2Real走向现实的“最后一公里”;


  • 商业落地的“路径选择”:嘉宾们看好“工业先于家庭”的路径,因任务明确、成本可控已出现落地案例,而家庭服务则需等待“成本下降”与“泛化能力提升”,比如叠衣服机器人先应用于医院、酒店等垂直场景,再向家庭渗透;


  • 具身智能的“GPT时刻” :最后,关于具身智能的“爆发拐点”,嘉宾们预测“World Model+VLA”的组合将成为关键,世界模型的通用性可能先于具身智能本体到来,而大规模机器人生态则是推动技术爆发的“数据飞轮”,当世界模型能通用推演未来,当机器人集群能生成海量真实数据,具身智能或将迎来类似GPT的突破性时刻。


以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:


01

IROS 2025 观察


马晓宁: 大家好,欢迎来到雷峰网 AI 科技评论的 live 栏目,本次主题是“从 IROS 2025 看智能机器人前沿趋势”。我们邀请到了三位嘉宾:上海交通大学计算机学院助理教授、上海 AI Lab 青年研究员穆尧老师;SOMA Robotics 创始人陈天一;以及科罗拉多大学助理教授李正雄老师。感谢三位光临。


从 IROS 2025谈起,智能机器人何时迎来「GPT式爆发」? | GAIR Live 019


上周我们共同参加了 IROS 大会,感觉非常震撼和精彩。在 IROS 上,大家看到了哪些有趣的论文或令人印象深刻的产品?


穆尧: 在本届 IROS 期间,最吸引我的仍是展会上的新产品。硬件的迭代速度非常快,我从年初的 WAIC、WRC 到 IROS 所有的展会都参加了,每一次都有令人惊艳的东西。


本次 IROS 的一个标志性现象是中国具身智能企业的崛起。具体到产品,主要吸引我的是灵巧手技术。有几个展商表现突出,例如Sharpa,他们是首个将视触觉集成到指尖的灵巧手制造商,并且展示了一个荷官在线发牌的 Demo,非常震撼。我们自己也做灵巧手,深知将视触觉集成到与人手大小相近的指尖是非常不容易的,这要求电机直驱,电机必须是自研以保证微小体积和足够驱动力。


另一个例子是舞肌科技,他们之前在网上发布了预热的 CG Demo ,此次看到了实机展示,效果不错。尽管高自由度背后仍有电机发热等技术挑战,但灵巧手技术正在日新月异。相对而言,低自由度、低成本的机械臂方案在几次展会上方案已经趋于收敛,但在灵巧手领域我看到了巨大的机会。


在科研方面,IROS 曾以传统机器人运动控制的文章为主,但今年的一大趋势是:Learning 驱动的具身智能方法呈指数式攀升,占据了绝大多数的席位。得益于硬件的不断发展,我们正迈向一个大批量使用真机数据来训练模型的时代;另外,我们也在真实世界中进行自我探索,这是另一个进行真机强化学习的时代。


马晓宁: Learning 驱动的方法成为主流确实是今年一个非常明显的趋势。正雄老师您怎么看?


李正雄: 穆老师总结得非常全面和仔细,他已经概括了我在 IROS 上发现的几个精彩点,我来做一些补充:


首先关于灵巧手,从学术界角度来看,原来我们研究低自由度的动作,现在随着产品的进化,我们开始研究高自由度的复杂动作。参会后我们发现实际看到的结果比预想的更好,这不光是手本体硬件设计的进步,更关键是Learning 方面的提高,使其能够实现长时间复杂任务的完成。


其次,正如穆老师所总结的,关于人形机器人或本体方面,很多我们此前只在网上看到的 Demo,在现场能够真正看到、触摸,甚至可以给出一些现场的任务指令。这是网上观察与现场体验的主要区别,现场感受到的震撼是不同的。从工业界看,现在是百花齐放的局面,许多厂商推出了非常好的产品。我相信真正的落地或走进千家万户是指日可待的。


马晓宁: 在现场观看时,什么样的动作让您觉得比较震撼?


李正雄: 像灵巧手,厂商可以非常好地完成正常的握手、拿东西,或者完成指令性的任务。更具冲击力的是,当你真正用手去触摸它时,能够感觉到从物理世界到赛博世界,有一种时代的跨越感。


马晓宁: 天一有什么要补充的吗?


陈天一: 两位老师说得非常好,特别是穆尧老师,我的关注点与他基本一致。我在 IROS 产品展上主要关注两点:灵巧手和桌面级机械臂。


灵巧手方面,我特别关注了Sharpa和舞肌科技。Sharpa自 ICRA 亮相后,因其是首款以电机直驱实现 22 自由度的工业级灵巧手而受到全球关注。他们将视触觉技术工程化做得非常出色,无论是表面材质选择还是触觉信号精度,都令人惊艳。


这一次,Sharpa也展示了令人印象深刻的 Demo,例如荷官发牌,即灵巧手捏住扑克牌并将其放置于桌面上,这类任务在之前的学术界灵巧手上是极难完成的。这体现了产业界在硬件层面已逐步超越此前学术界的探索。


在机械臂方面,我发现了一个趋势:业界和学界普遍使用的特定构型机械臂,像方舟无限的构型开始增多,并且出现了更低价的替代方案。我发现一家名为星界机器人的公司,能够将这类机械臂成本降低至 1,500 美元左右,直接将同构型机械臂的成本降低了约四到五倍,这是一个非常亮眼的产品。


马晓宁: 成本降低到四五分之一,这是一个非常夸张的降幅。现在我们从整体上来看,各位嘉宾可以用一两个热词来代表这次 IROS 的趋势。


陈天一: 我认为是 Learning from Demonstration,即以模仿学习为核心的学习方法。VLA 是一条相对清晰的技术路径,作为一种端到端的方法,其热度还是非常火爆的。


马晓宁: 穆尧老师,您认为最能代表本次 IROS 的词是什么?


穆尧: IROS 涵盖了自动驾驶、智能交通、飞行等广阔领域。我需要补充一个令人印象深刻的 Demo:浙大湖州研究院的飞行背包,真的可以背在身上飞起来,非常令人震撼,我觉得飞行背包可以作为第一个热词。


我们的研究更聚焦于机器人的操作(Manipulation),所以我认为第二个热词应该是灵巧操作(Dexterous Manipulation)


02

具身智能的趋势:从控制到理解加决策


马晓宁: 飞行背包在现场看确实非常震撼。我们进入下一个问题:具身智能的发展,是否正在从控制加感知走向理解加决策?


李正雄: 这种转变正在发生,可以视为一种混合演进。


过去的研究主要关注感知和底层的机械控制。而本次 IROS 展现的趋势是,研究已升级到感知、表征、推理、决策的整个体系。许多研讨会和演讲都在讨论“理解”或“想象”在长期任务中的作用。


但是在工程化的实际系统当中,仍然需要遵循经典的控制和运动规划,作为闭环的保障。但现场许多新的 Demo 已经开始将大模型的高层意识输出,再由传统的控制模块进行精细执行。


因此,我的综合判断是:在短期内,大约 1 到 3 年,行业将采用“感知 + 控制 + 大模型作为高层理解决策”的混合框架,或者采用混合 VLA 的路径。从长期来看,行业可能更趋向于端到端、可解释认知的控制。但要完全替代传统的控制和感知,仍需要时间。


马晓宁: 穆尧老师怎么看?


穆尧:首先,传统机器人在执行操作任务时,模式通常是:感知模块输出一个Grasp Pose,再经过轨迹规划和控制模块去执行抓取。


我认为“理解加决策”还不足够。理解和决策是具身智能的“大脑”部分,而具身智能区别于传统机器人的核心在于:多模态大模型赋予了机器人理解场景的能力和理解人类语言的能力。机器人具备基础认知后,能够与人类交互并进行推理。这正是多模态大模型为机器人领域带来的机会,也催生了“具身智能”这一热词。


因此,从这个角度来看,这种范式转变确实存在。除了理解到决策的转变,我认为还存在一个进一步的演进:控制模式的转变。它不再是简单地给出一条轨迹然后去跟踪执行,或者进行柔性控制,而是更多的是进入了闭环反馈控制。这意味着当执行出现误差时,机器人能够根据视觉捕捉,实时修正。例如“抓偏了,需要向右调整”,然后再次抓取。VLA 模型作为抓取或操作的“小脑模型”,正好弥补了这一点。这是我视角下的一种范式转变。


马晓宁:大家的感觉都是这是一个逐渐演进的过程。在确保机器人能够有效执行任务的同时,也要相信其高层次的理解能力。天一,你怎么认为?


陈天一:我认为,对于通用具身智能而言,控制、感知与理解、决策这两部分都是必不可少的。在大模型出现之前,传统机器人研究注重模块化,将感知和控制分开研究,再通过组合完成任务。现在有了 VLA 和大模型的赋能,研究人员可以更多地关注理解和决策问题。


但最终,我们肯定需要一个比较稳定的底层控制能力(小脑),再加上层理解和决策的大脑能力。大脑和小脑缺一不可。如何将这两部分融合起来,是我们未来学术界和工业界都会重点研究的方向。但目前来看,正如正雄老师所说,工程落地方面,传统的感知加决策方式仍然更为落地。未来我们将进一步探索如何连接大脑和小脑,实现更实际的落地。这是我的观点。


03

模型与算法演进:大模型如何重塑具身智能


马晓宁 :保障性闭环与大模型决策之间的平衡是关键。接下来我们讨论模型和算法的演进,在大模型发展到现在的时刻,它是如何改变具身智能的研究范式的?


陈天一:我发现LLM、VLM为机器人研究注入了非常新鲜的血液。在LLM、VLM 出现之前,研究更多是基于 Model-Based 的方法,侧重于建模、优化和控制。但现在有了 LLM、VLM 和强化学习等方法,我们看到了几个趋势:


首先,将 LLM 指挥底层模块执行任务。其次,使用 VLM 去理解场景,评估场景的奖励(Reward),然后将其输入给 RL 函数,辅助 RL 算法学习复杂任务。我看到越来越多的 VLM 和新颖方法融入到机器人控制研究中。


马晓宁:有观点认为,RL 仍然是机器人完成精细动作的重要一环。正雄老师,您怎么看?


李正雄:的确,随着大模型的发展,LLM、VLM 或世界模型带来了一种新的研究范式。这种范式带来的具体变化有三点:


  1. 高层意图与自然语言接口: 大模型使得机器人能更好地利用自然语言进行任务规划和分解,并在人机对话中提高性能。
  2. 训练范式的改变: 训练范式正在从监督学习、自监督加合成数据,转向少样本指令微调。研究者可以利用大规模仿真或生成数据训练视觉或行为模型,再用现实环境的少量数据进行适配,从而加快开发节奏。
  3. 世界模型(World Model)的应用: 通过构建世界模型来进行想象和规划。世界模型可以被视为一种内在仿真,AI Agent 或机器人模型可以在其中进行试验,预测合适的动作序列,然后再落实到真实的机器人上。这种方法比以往更适合机器人任务的泛化。


总体而言,这些变化让具身智能研究从任务特性化的感知堆栈,走向通用的表征、可组合的技能和自然语言的交流。但这些仍会依赖于数据、算力以及有效的现实环境适配策略。这是我目前观察到的情况。


马晓宁:穆尧老师,请教您的观点,并请您总结一下这个问题。


穆尧:我认为这是一个非常好的问题。从 Language Model 到 VLM,语言模型对具身智能的革命性改变首先在于它解决了长序任务的长序推理。在缺乏多模态大模型时,让机器人自主决策完成一项新的、完整的任务(例如“做一杯完整的咖啡”),是非常困难的。


其次,VLM 实际上已成为大多数机器人基础模型(如 VLA)的前置基础模型。这牵引到具身智能的一个核心问题:如何更好地建模 VLA 中的“A”(Action),以及如何使“A”与前端的 VLM 能够协调、统一地在同一个训练范式中进行训练。这是一个非常重要的问题。


第三部分是世界模型(World Model)。世界模型受益于视频生成模型(如 Sora)的强有力发展,带来了革命性的变化。世界模型在机器人领域并非新词,但强大的视频生成能力赋予了具身智能巨大的机会。这种强大的机会在于,世界模型对未来的推演是 General 的,可以实现任意本体、任意场景、任意任务的空间智能推理过程的表达。


我们可以通过世界模型,对未来几帧的模式进行推演,以进行空间智能推理。这也是李飞飞老师他们牵头推进的空间智能所强调的。具身智能额外需要解决的问题是:在完成了世界模型的推演后,如何利用 Inverse Dynamics 等技术,从未来帧的推演中推理出机器人各关节角的具体 Action。这是世界模型对具身智能的革命性推进。


04

Sim2Real 的实用性:挑战与局限


马晓宁:我们好奇地追问一句,世界模型(World Model)对具身智能的推演研究范式是否已经产生了一些现实改进?


穆尧:是的,它基本上革新了 VLA 的结构。World VLA 的模式正在迅速兴起,即通过 Inverse Dynamics 的形式,将世界模型对未来时刻的推演直接嵌入到具身智能的 VLA 框架中。这可以说是 VLA 范式中越来越热门的一个方向。


马晓宁:我总结一下:从大语言模型(LLM)的出现赋予了具身智能理解动作本质的能力,到 VLM 使其能够更好地行动,再到 World Model 将其整体融入框架之中。那么,从 IROS 2025 的技术展示来看,自监督 + 模拟 + 现实适应(即 Sim2Real)是否已经接近实用阶段?


穆尧:Sim2Real 是我个人的重要研究方向之一(专注于仿真行业数据)。但要判断其是否“接近实用阶段”,需要分任务、分场景来看。


对于大多数刚体任务,例如物料分解、零件分类、拣选等,Sim2Real 的确已经走向实用。例如,业界优秀的模型,如由尤因和通用提出的 CRAFT-VLA,证实了 Sim2Real 在这些场景中的实用性。但我们的限定词是:刚体,且主要面向抓取、放置等简单操作。


目前仿真解决得不够好,或者说 Sim2Real 差距仍然很大的地方,包括:柔性体和流体。一个典型的例子是倒水任务,机器人要做到不洒是非常困难的。在仿真中,流体的物理模拟和渲染都极具挑战性。


特别是流体的物理模拟难度很大。对于柔性体,当前的仿真能力可能只能模拟单层的 T 恤或毛巾等简单衣物;但对于复杂的棉服或外套,我认为目前一个都无法精确模拟。因此,在这些任务上,很难说 Sim2Real 已经进入实用阶段。


马晓宁:听起来其局限性仍然很大。正雄老师,您在观察这些研究和成果时有什么样的感受?


李正雄:穆老师的描述非常全面。对于刚体或相对固定的物体,Sim2Real 确实做得相当好。许多研究团队已经公布了良好的训练策略来完成这类任务。但对于流体,目前仍处于研究阶段,并未很好地迈向实用。本次 IROS 也有相关的论文试图解决这一问题。


延续穆老师的观点,现在许多实验室或团队已能基于大量的仿真生成数据,做到 Zero-shot 或 Few-shot 的 Sim2Real。这表明该技术路线正逐渐收敛和成熟,可以说是趋于实用。


然而,在落地的“最后一公里”,仍存在一些工程上的挑战:例如现实世界中的 Corner Case(长尾情况)、长期的鲁棒性(如何保证任务持续稳定执行)、复杂接触动力学(如穆老师提到的棉服的多面、不规则接触),以及最重要的一点:安全性验证。


Sim2Real 的落脚点是 Real,一旦涉及现实操作,安全验证是不可回避的话题。但目前对机器人安全验证的投入似乎力度不够。因此,很多团队在 IROS 上特别强调需要大量的现实微调步骤和传感器冗余,以确保落地和操作的安全。我的观点是,它已从我们认知中的“研究魔术”逐渐迈向工程实践,部分任务表现优异,但在多样化或开放环境中要做到普遍适用,仍需要大量工作。


马晓宁:您刚才提到的安全问题,如果在 Bad Case 上可能造成什么样的安全隐患?


李正雄:举例来说,如果机器人正在倒热水,一旦马达失控或某个关节动作不到位,热水可能会溅洒到人身上。如果机器人将来负责做饭,灵巧手拿菜刀切菜时,一旦因摩擦力问题导致刀具脱手飞出,就有可能伤及他人。这些都是需要关注的 Safety 或 Security 问题。


马晓宁:这听起来仍然非常严重,与实用性还有较大差距。天一,你怎么看?


陈天一:两位老师说得非常好,我简单补充两点。


第一,Sim2Real 在哪些任务上做得好?我认为是 Locomotion(下肢、双足、四足运动)和导航。这些任务与物体的接触是有限的,不像接触密集的操控(Contact-Rich Manipulation)需要与物体进行多点多次接触。


对于双足/四足机器人的 Locomotion 来说,接触点是有限且更少的。在这类任务中,我们看到了非常惊艳的 Demo,例如舞蹈等。可以说,Locomotion 领域的 Sim2Real 已经是一个非常成熟的技术路线。现在越来越多的 Locomotion 算法,其在仿真中训练出的策略已经支持实时的遥操作,并能保持稳定和完成复杂的动作。


在 Manipulation 方面,局限性仍然非常大。基本上只在刚体、或近似于落地的物流分拣、简单拿放等操作中可以应用。而涉及到流体、柔性体,特别是复杂的摩擦力的任务,目前效果是远不及前者的。


第二点补充是关于长尾效应。仿真展现了巨大潜力,但现实应用场景的长尾效应非常严重。例如,每个人的家庭场景都是不一样的。仿真面临的挑战是:能否在有限的仿真场景中获得足够的泛化能力?如果不能,我们是否需要以低成本或高效的方式将所有人的家都仿真一遍?或者,我们能否让机器人在有限环境下学到的能力,高强度迁移到每个人的家里?


我认为这个挑战仍然非常大,需要持续观察算法进步的效率。我个人认为,长尾问题是 Sim2Real 走向普及的一个巨大的挑战。


马晓宁:明白。核心还是通用具身智能的 Corner Case 数量过于庞大。总结来看,Sim2Real 在 Locomotion 和导航等领域已具有实用价值,可以落地;但在涉及流体、复杂柔性或摩擦力的泛化场景中,其实用性仍然非常堪忧。


05

硬件趋势与软硬协同:具身智能的关键进阶


马晓宁:IROS 2025 展现的硬件趋势是什么?具身智能的下一个阶段,关键是否在于软硬协同?


陈天一:我认为软硬协同是一个非常重要的趋势。从我们刚刚观察到的产品来看,像Sharpa、舞肌科技以及各机械臂厂家,都在逐步向更强的软硬协同方向发展。


在缺乏产品化机器人硬件的早期,软件和硬件是分离的,研究者需要通用平台,且经常要对硬件进行特定改动。而现在,具身智能产业正逐步迈向产业化和工程化,市场需要面向市场的产品。对于这些产品而言,如果希望达到极致的用户体验和性能,软硬协同是不可避免的关键要素。


马晓宁:但现在推进软硬协同是否仍面临许多难点?


陈天一 :是的,难点在于:在算法尚未收敛的情况下,如何确定清晰的路径去优化硬件?换句话说,在软件尚不成熟时,如何保证软硬协同能够高效地朝着最优(Optimal)方向发展?这就考验了每个厂家具备的技术洞察力,即对未来方向的选择和判断。厂商需要通过多线并行的方案,以软硬协同的方式联合提升产品性能。


马晓宁:总结来说,这是产品化倒逼技术进步。穆尧老师可以从学术界的角度阐述这个问题。


穆尧 :软硬协同无疑是一个非常重要的趋势。我们在高校内与大多数具身智能公司都有合作,我们学术界为硬件厂商提供的帮助,主要是反馈意见:在使用过程中,哪些功能未能达到要求。例如,我最近向所有机械臂厂家提出的要求是提供一个非常灵活的腕关节,希望他们能尽快完善产品。


其次是生态建设。机器人若要实现大范围推广,需要一个良好的生态系统。其中最好的典范是 ROS-I(ROS Industrial)和乐 Robot,它们在生态建设上是成功的。


从算法研发的推动作用来说,硬件改进一点点,算法上的进步可以是一大截。例如,腕关节的灵活性提升,能显著提高任务成功率。因为现在的 VLA 能够学习到位置或姿态的基础趋势,最终比拼的是操作的准确度和效率,这必然需要软硬协同。


值得注意的是,硬件厂商与学术界都在积极合作,这是必然的趋势。过去,硬件研发周期长(例如大公司从定型到量产),导致算法发展快于硬件。现在百花齐放,国内展商在 IROS 上居多,且更具看点,这实际上体现了在初创企业强大活力的推动下,硬件的迭代速度变得非常快,这是一个非常好的趋势。


马晓宁:正雄老师,您长期在美国,这次回国有什么新的感受吗?


李正雄:首先,硬件方面,其种类和功能都在增加:例如多模态传感器(Lidar、主动相机、高帧率 RGBD)、机器人本体(轮腿混合、模块化的末端执行器),以及边缘算力加速器等硬件的日益普及和功能增强。


软硬协同肯定是一个大趋势。机器人是一个整体系统,如果软件无法充分利用硬件的高性能,就是一种浪费。这是一个相互促进的过程。同时,从我们研究的角度,软件调试的增多会发现当前 Learning 上的缺陷,从而反过来指导硬件设计的优化。我们在 IROS 上有一篇关于触觉传感器(Tactile Sensor)的论文,探讨了如何增加新的维度,使其更好地完成任务。


因此,这是一个相互促进、互相协调的发展。软硬协同必然是未来的趋势,硬件人员最好懂一点软件,软件人员也能更好地协助硬件人员,以提高整体系统性能。


马晓宁:穆尧老师提到他们与许多业界公司合作研究软硬协同,这对行业发展非常有意义。正雄老师,您是否有类似的合作,以及您如何看待这样的生态发展?


李正雄:合作越紧密,对整个产业的发展促进越好。大家能够互相了解对方的需求,可能通过一次沟通或交流,就能发现新的行业机会。


马晓宁:天一有和哪些机构进行过类似的合作吗?


陈天一:我们是一家小型初创公司,与智元、以及穆尧老师提到的那些大型人形机器人公司相比,差距仍然较大。我们目前的产品领域也略有不同,因此暂时还没有与学界进行这方面的合作,主要专注于内部研究。


06

商业潜力:从科研到创业的落地方向


马晓宁:具身智能最具商业潜力的方向在哪里?


李正雄:从产业角度来看,我们团队看好三个大的中期机会:工业化的巡检和流水线、仓储物流,以及家庭服务。这三个领域在中长期内即可实现相关的落地应用和商业化。


从长期来看,家庭医疗维护、老年人康复、手术辅助,以及教育和陪伴,也具有很高的经济价值。但相较于前三者,它们在短期的商业投资回报率上可能略逊一筹,但前景良好。


马晓宁:穆尧老师,您的看法如何?


穆尧:我的看法与李老师相似。从短期来看,机会仍主要集中在工业落地。期望它短期内进入千家万户的家庭服务可能还比较遥远。但即使是面向家庭服务,其应用也会是垂直领域的。


例如,像 DELA 做的叠衣服机器人,其应用场景可能不是家庭,而是医院(叠病号服)或酒店(叠毛巾、浴巾)。这实际上是具备走进家庭的潜力,但短期内缺乏强大的泛化能力。关键的落地标志是:在一个垂直领域,机器能够 24 小时运转,且其效率大于等于人类 8 小时工作的效率。这便完成了基本的商业闭环。


马晓宁:家庭场景的落地可能还需要较长时间。但我发现一些场景,例如农业摘果子,一个机械臂搭配吸盘或夹爪,就能达到两名工人的劳动效率,这非常实用。


陈天一:在机器人落地场景的观察上,基本上涵盖了两位老师提到的方向:工业柔性制造、巡检分拣、商业服务、家庭服务和养老。大家普遍看好的渗透路径是:从工业到商业再到家庭。


这是因为工业场景相对半结构化,任务界定清晰(Well Defined),不如家庭场景那般非结构化、随机和复杂。此外,家庭场景的终端客户对成本敏感度极高。因此,当前的趋势是先在工业场景赚取行业第一桶金,持续摊薄硬件成本,最终逐步向家庭渗透。


最近我了解到一则令人震惊的落地应用:一个团队将端到端模型落地到了二维平面焊接场景,并且已经接近投产阶段。这很有意思,因为它挑战了我们之前对具身智能多轴或人形机器人的想象。在这个应用中,可能只是一个二自由度的焊接枪,但具身智能模型赋予它的优势是柔性化。它无需为每一个新工件从头设计逻辑和程序,而是可以不断积累经验。在这种场景下,它确实提高了整个产线的研发效率,挑战了我们对具身智能落地形态的认知。


马晓宁:这确实是一个与商业结合得比较完美的案例。接下来有一个线上观众提问:三位老师有没有看到哪些比较惊艳的灵巧手产品?这个问题可以不局限于 IROS。刚才我们谈到了Sharpa和 舞肌科技。三位老师还有没有其他日常接触到的优秀灵巧手推荐?


穆尧:我来补充几个,因为我对这块接触较多,且有合作。


  1. Proxy Hand 在 IROS 上发布了大规模灵巧操作数据集,以及代理 Converse 灵巧智能的灵巧手。这是一款高自由度的线驱灵巧手。
  2. 灵犀巧手: 它的整体手部较轻,且有多个高/低自由度版本。它有一个“学者计划”,为学术界提供很好的资助,适合有研究需求的老师。
  3. 星际光联: 这家深圳公司提出了一个驱动器与手部分离的方案,将驱动器放置在胸部或臂部。这解决了传统电机直驱或绳驱方式使手部过重或过大的问题,是一个非常新颖的方案。


马晓宁:天一和正雄两位老师还有什么要补充的吗?


李正雄:我可以补充两款海外常用的灵巧手,一款是Allegro Hand: 韩国的产品;另一款是Shadow Dexterous Hand: X-On 公司旗下的产品。


马晓宁:你们日常为什么会选用这两款?


李正雄:首先,从研究角度,预算是重要的考量因素。这两款灵巧手相对比较开源,且便于进行二次维护和开发。


07

总结与展望:具身智能的 GPT 时刻


马晓宁:最后一个问题,也是一个总结和预测性的问题。在未来的三到五年内,具身智能经历了巨大的进步和改变,包括实用性、研究范式和软硬协同。我们所说的关键拐点,或者说它的 GPT 时刻会是什么?是统一世界模型的出现?是真正可理解的人机协作智能?还是安全可控的社会行为?


李正雄:我认为关键拐点将是 VLA 加世界模型(World Model)的组合,即可组合的通用世界模型的出现。如果能出现一个跨任务、又能高效适配现实的、具有良好 Reward 机制的世界模型,它将改变现有 AI 的训练和部署范式,并能在一定程度上高效地完成多种任务。


其他关键因素还包括软硬协同这种工程范式的落地,相关的标准形成,硬件边缘算力、仿真工具以及整个训练配套的成熟。这将使得 Sim2Real 能够在产业级的场景中实现大规模复现和规模化应用。最后,安全和可解释性是不可或缺的。这既是满足社会行为和法规的标准化要求,也能让更多用户安心使用我们的产品。


马晓宁:穆尧老师对这个有什么不一样的想法吗?


穆尧:我高度赞同 VLA 和 World Model 的结合。我个人有一个暴论:世界模型的通用性会比具身智能的通用性来得更早一些


具身智能机器人受到本体发展等多种约束条件。但面向具身的世界模型可以更多地依赖人类行为数据。人类世界的数据是无穷无尽、非常海量的。对这方面数据的深入挖掘,将使世界模型的学习和训练有非常好的发展。现在已经有一些效果不错(Workable)的世界模型在逐渐出现,虽然物理真实性有待考量,但我相信结合强化学习等技术可以使其学得越来越好。


如果出现一个非常好的世界模型,我们就可以实现 World Model as a Simulator。这样,即使没有物理本体,我们也可以进行推演和策略的更新迭代。这对具身策略学习的促进将是革命性的。因此,我个人观点是,世界模型的通用性会更早一步到来。


马晓宁:如果我请您预测一个时间点,您觉得会是多长时间?


穆尧:这个时间点其实说快也很快。Sora 2 的发展速度大家有目共睹。当前学术界的另一个趋势是 “互联网数据 Great Again”。具身智能研究始于互联网数据,但当时计算机视觉技术不够成熟。现在,4D 高斯等技术的成熟,使得重建和姿态估计成为可能。在“Make Internet Data Great Again”的浪潮下,世界模型将向前推进很大一步。我觉得近两年内,世界模型就会有一个很大的突破。而具身智能最终要到落地的场景,我的估计是五年左右的时间。


马晓宁:那我们五年之后再回过头来验证这个问题。天一,您觉得呢?


陈天一:我非常认同两位老师关于 World Model 和 VLA 的观点。VLA 现在已经有了,但能够与 VLA 结合的优质 World Model 尚未出现。但当我相信这样的世界模型出现时,它能赋予机器人强大的能力,即在 World Model 里预测下一步动作,这将给整个具身智能带来一个技术奇点式的突破。


至于时间点,我选择相信穆尧老师的判断,可能在两到三年内会有好的 World Model。但我还想补充一个非常重要的点:大规模部署的机器人生态。即使有了基于互联网数据训练的世界模型,它在机器人本体上的效果如何?这仍然是一个不确定的问题。


所以,如果有一个大规模部署的机器人生态,它能同时为 VLA 和 World Model 提供良好的基础,促进整个算法的发展。我认为世界模型和大规模部署的机器人本体生态,是促成具身智能爆发性拐点到来的两个关键要素。


马晓宁:您这个观点有点像特斯拉的生态模式。


陈天一:是的。特斯拉之所以效果好,也是因为它拥有一个机器人舰队(自动驾驶汽车也是一种机器人),这对自动驾驶的效果贡献巨大。


马晓宁:我好奇的是,这种大规模的机器人集群生态,会是部署在什么样的场景?


陈天一:我们公司目前正在探索这方面的方向,主要集中在居家场景。


马晓宁:好的。总结一下,按照正雄老师和穆尧老师的观点,World Model 加 VLA 是关键节点;天一则补充了大规模的机器人生态(可以理解为数据飞轮的成熟),这也非常具有启发性。那五年之后,我们再一起回过头来验证今天的预测。


本次GAIR Live 圆桌论坛就到此结束了,非常感谢三位嘉宾。


文章来自于“AI科技评论”,作者 “岑峰”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner