就在今年么?
你也许在近几个月不止一次地看到类似的消息:2025 年会成为人形机器人量产元年。
这……能信么?
最近,的确有多家机器人厂商公布了 2025 年的量产计划:
特斯拉计划生产 1 万台 Optimus;Figure AI 预计未来 4 年将量产 10 万台;1X 预计量产数千台 NEO 机器人;国内的智元、宇树、优必选也都宣称在积极推进量产。
既然像前两篇说到的那些难题如此密布,那这样的25年新年计划是不是太乐观了?可别跟我每年的New Year Resolution一样啊……
前文提到机器人数据采集的两种常见手段,是在真实世界/仿真世界里进行训练,并收集相关数据。
其中,真机训练始终是一条“艰难而正确的路”,需要不小的“钞能力”。现在看来,很可能还是需要“大力出奇迹”——比如国家和地方政府亲自下场支持。
当前,北京和上海都是由国家工信部和当地政府联合,建设具身智能数据采集场,并牵头制定了一系列数据标准。2025 年 4 月,北京还将举办世界人形机器人运动会和半程马拉松比赛。
深圳市政府紧随其后。3月3日,深圳围绕人工智能发展行动计划连发三文,其中两则重点提到了“具身智能”,包括“构建跨本体多样性开源数据集”、“在宝安、龙华等区建设具身智能数据采集基地”、“开发真机数据采集平台和数据仿真平台”等与数据采集直接相关的内容。
广东省的做法看上去更加“简单粗暴”——打钱!根据广东省政府 3 月 10 号发布的文件,国家级重点项目可拿到 1 亿元支持;创建人工智能和机器人制造业创新中心,最高可获 5000 万元支持;针对机器人开源项目给予最高 800 万元资助;企业、科研院所主导制定机器人行业标准,最高可给予 50 万元资助……
当然,跟砸钱建设真机训练场相比,在仿真环境中训练的性价比要高得多。各大科技公司也正在绞尽脑汁,探索如何给机器人搭建更完美的“赛博世界”——也就是由 AI 生成的世界模型。
不光赛亚人有自己的精神时光屋,机器人也有——(对于某些场景和特定数据)在仿真平台训练一天,可能相当于真实世界里180天的效果。上海人工智能实验室的科学家表示,算上人力和机器成本,获得一条真机数据可能需要十几元,而一条仿真数据只需要两分钱。
目前,世界模型中最大的明星,是英伟达的 Cosmos。根据英伟达自己的信息,人形机器人制造商 1X、Agility Robotics、Figure AI 等均已使用该平台,小鹏汽车也将用其来加速人形机器人的开发。
在人形机器人以外的领域,Uber 正在应用 Cosmos 研究自动驾驶;埃森哲和凯傲软件也基于 Cosmos 实现了仓库物理信息的数字化,以训练仓储机器人。
谷歌 DeepMind 团队也在下注“世界模型”。DeepMind 在 2024 年 12 月发布了 3D 世界模型 Genie2,可以模拟重力、烟雾、水流、灯光等物理世界的效果,生成长达1分钟的“一致”世界。Genie2 正在与现有的具身智能项目结合,为其提供仿真训练环境,有望应用在谷歌自研的机械臂 ALOHA、自动驾驶 Waymo 以及谷歌投资的人形机器人 Apptronik 上。
还有一些公司和团队致力于多模态世界模型,比如李飞飞带领的 World Labs,以及字节跳动、昆仑万维等中国公司。这些模型同样可以根据简单的文本或图片描述生成一段 360° 可交互视频,但目前主要应用在游戏、动画等领域,还未见公布的具身智能应用案例。
具身智能最大的想象空间,就在于 AI 究竟能在多大程度上赋能机器人的行为。
限制人形机器人大规模应用的一道门槛,就是泛化能力普遍不足。机器人学习一个复杂动作需要几千甚至上万条数据作支撑,而一旦操作环境发生变化——比如需要抓取的物体形状和材质发生了改变,机器人可能就要“从头学起”了。
但 AI 的发展带来了转机,机器人有望通过较小的数据集实现对物理操作的泛化理解。
2月20日,Figure AI 发布了用于通用人形机器人的动作模型 Helix。借助该模型,机器人可以按照自然语言提示拿起几乎任意一种小型家居物品——包括它从未见过的物品。
Helix 还能够将丰富的语义知识直接对应到机器人的动作上,比如听到“捡起沙漠物品”的指令时,机器人能识别桌上的玩具仙人掌,并完成“抓取”的精确动作。这种转换能力的提升与 Helix 同时结合了快思考(System1)和慢思考(System2)的两种系统有关。简单来说,机器人可以用慢思考来完成推理、生成准确的判断,用快思考来即时执行、调整动作。
Helix 的创新优势还在于其仅使用了 500 小时的高质量监督数据做训练,数据量不到之前 VLA(视觉-语言-动作)模型的5%,而且无需针对特定任务进行微调。并且它还是第一个能同时运行在两个机器人上的动作模型,实现了机器人之间的无缝合作。
当前,配备了 Helix 的 Figure 机器人能够在各种容器中拾取和放置物品、操作抽屉及冰箱、与另一个机器人对接、以及操控数千种全新的物体。
中国厂商的机器人产品也在实现类似的效果。3月10日,智元机器人发布了GO-1具身基座大模型。GO-1 基于 VLA 模型提出了创新的ViLLA(Vision-Language-Latent-Action)架构。根据智元机器人的解释,该架构的底层逻辑是“数字金字塔”的概念。以学习打乒乓球为例,首先是在互联网海量数据中,从理论上学习上旋球、下旋球是怎么回事;接着有针对性地观看世界冠军的视频来学习动作模式;再通过发球机(Switch 上的乒乓球互动游戏没准也可以)来模拟练习;最后是教练手把手示教——按照这套逻辑,机器人就可以学会人类的行为了。
GO-1 最大的价值同样是让机器人通过小样本甚至零样本来实现泛化,训练数据集可以比以往降低1-2个数量级。并且,GO-1 可以结合互联网数据和真实的人类示教数据,增强了模型的感知、理解和操作能力,还能适应不同的机器人形态,实现“一脑多形”的跨本体应用。
几乎是在同一时间,Google DeepMind 也发布了两款机器人模型——Gemini Robotics 和 Gemini Robotics-ER。
前者是一个“高级VLA”模型,同样是增强了机器人的泛化理解能力,比如让从未见过篮球的机械臂知道“扣篮”是什么、该怎么完成;后者的 ER 代表“具身推理(embodied reasoning)”,试图模仿一种人类的行为——基于对物理世界的直觉理解,猜测与一个新物品的互动方式——但是是以机器人的行为模式。比如,人看到一杯热咖啡,可能会下意识去抓握手柄,但对机器人来说,全面握住杯子才是可靠性更高的反应。
如果没有自研的推理模型怎么办?还可以试试接入开源的 DeepSeek-R1。
优必选机器人就在2月宣布接入该模型,初步测试结果显示机器人的“零样本推理能力”有所提升。不过在实际落地应用之前,还需要经过足够的真实场景去训练调优。
马斯克认为,到 2040 年全球人形机器人数量将达到 100 亿台——而截至 2024 年末,人形机器人销量可能才刚达到万台级别。这中间“天堑”一般的 gap,还有待各家厂商突破。
也许,真的就是从今年开始。
到 2040 年我们走着瞧。好好吃饭、好好睡觉、好好运动,保持健康,可别到时候让机器人笑话啊。
文章来自于“果壳”,作者“冰点”。