机器人上学篇（下）：他们都说我今年要行了……我，行么……

8038点击 2025-04-21 10:02

就在今年么？

你也许在近几个月不止一次地看到类似的消息：2025 年会成为人形机器人量产元年。

这……能信么？

最近，的确有多家机器人厂商公布了 2025 年的量产计划：

特斯拉计划生产 1 万台 Optimus；Figure AI 预计未来 4 年将量产 10 万台；1X 预计量产数千台 NEO 机器人；国内的智元、宇树、优必选也都宣称在积极推进量产。

既然像前两篇说到的那些难题如此密布，那这样的25年新年计划是不是太乐观了？可别跟我每年的New Year Resolution一样啊……

机器人上学篇（下）：他们都说我今年要行了……我，行么……

要么烧钱、要么烧脑

前文提到机器人数据采集的两种常见手段，是在真实世界/仿真世界里进行训练，并收集相关数据。

机器人上学篇（下）：他们都说我今年要行了……我，行么……

其中，真机训练始终是一条“艰难而正确的路”，需要不小的“钞能力”。现在看来，很可能还是需要“大力出奇迹”——比如国家和地方政府亲自下场支持。

当前，北京和上海都是由国家工信部和当地政府联合，建设具身智能数据采集场，并牵头制定了一系列数据标准。2025 年 4 月，北京还将举办世界人形机器人运动会和半程马拉松比赛。

深圳市政府紧随其后。3月3日，深圳围绕人工智能发展行动计划连发三文，其中两则重点提到了“具身智能”，包括“构建跨本体多样性开源数据集”、“在宝安、龙华等区建设具身智能数据采集基地”、“开发真机数据采集平台和数据仿真平台”等与数据采集直接相关的内容。

广东省的做法看上去更加“简单粗暴”——打钱！根据广东省政府 3 月 10 号发布的文件，国家级重点项目可拿到 1 亿元支持；创建人工智能和机器人制造业创新中心，最高可获 5000 万元支持；针对机器人开源项目给予最高 800 万元资助；企业、科研院所主导制定机器人行业标准，最高可给予 50 万元资助……

当然，跟砸钱建设真机训练场相比，在仿真环境中训练的性价比要高得多。各大科技公司也正在绞尽脑汁，探索如何给机器人搭建更完美的“赛博世界”——也就是由 AI 生成的世界模型。

不光赛亚人有自己的精神时光屋，机器人也有——（对于某些场景和特定数据）在仿真平台训练一天，可能相当于真实世界里180天的效果。上海人工智能实验室的科学家表示，算上人力和机器成本，获得一条真机数据可能需要十几元，而一条仿真数据只需要两分钱。

机器人上学篇（下）：他们都说我今年要行了……我，行么……

目前，世界模型中最大的明星，是英伟达的 Cosmos。根据英伟达自己的信息，人形机器人制造商 1X、Agility Robotics、Figure AI 等均已使用该平台，小鹏汽车也将用其来加速人形机器人的开发。

在人形机器人以外的领域，Uber 正在应用 Cosmos 研究自动驾驶；埃森哲和凯傲软件也基于 Cosmos 实现了仓库物理信息的数字化，以训练仓储机器人。

谷歌 DeepMind 团队也在下注“世界模型”。DeepMind 在 2024 年 12 月发布了 3D 世界模型 Genie2，可以模拟重力、烟雾、水流、灯光等物理世界的效果，生成长达1分钟的“一致”世界。Genie2 正在与现有的具身智能项目结合，为其提供仿真训练环境，有望应用在谷歌自研的机械臂 ALOHA、自动驾驶 Waymo 以及谷歌投资的人形机器人 Apptronik 上。

还有一些公司和团队致力于多模态世界模型，比如李飞飞带领的 World Labs，以及字节跳动、昆仑万维等中国公司。这些模型同样可以根据简单的文本或图片描述生成一段 360° 可交互视频，但目前主要应用在游戏、动画等领域，还未见公布的具身智能应用案例。

好消息！机器人泛化难题有望解决

具身智能最大的想象空间，就在于 AI 究竟能在多大程度上赋能机器人的行为。

机器人上学篇（下）：他们都说我今年要行了……我，行么……

限制人形机器人大规模应用的一道门槛，就是泛化能力普遍不足。机器人学习一个复杂动作需要几千甚至上万条数据作支撑，而一旦操作环境发生变化——比如需要抓取的物体形状和材质发生了改变，机器人可能就要“从头学起”了。

但 AI 的发展带来了转机，机器人有望通过较小的数据集实现对物理操作的泛化理解。

2月20日，Figure AI 发布了用于通用人形机器人的动作模型 Helix。借助该模型，机器人可以按照自然语言提示拿起几乎任意一种小型家居物品——包括它从未见过的物品。

Helix 还能够将丰富的语义知识直接对应到机器人的动作上，比如听到“捡起沙漠物品”的指令时，机器人能识别桌上的玩具仙人掌，并完成“抓取”的精确动作。这种转换能力的提升与 Helix 同时结合了快思考（System1）和慢思考（System2）的两种系统有关。简单来说，机器人可以用慢思考来完成推理、生成准确的判断，用快思考来即时执行、调整动作。

机器人上学篇（下）：他们都说我今年要行了……我，行么……

Helix 的创新优势还在于其仅使用了 500 小时的高质量监督数据做训练，数据量不到之前 VLA（视觉-语言-动作）模型的5%，而且无需针对特定任务进行微调。并且它还是第一个能同时运行在两个机器人上的动作模型，实现了机器人之间的无缝合作。

当前，配备了 Helix 的 Figure 机器人能够在各种容器中拾取和放置物品、操作抽屉及冰箱、与另一个机器人对接、以及操控数千种全新的物体。

中国厂商的机器人产品也在实现类似的效果。3月10日，智元机器人发布了GO-1具身基座大模型。GO-1 基于 VLA 模型提出了创新的ViLLA（Vision-Language-Latent-Action）架构。根据智元机器人的解释，该架构的底层逻辑是“数字金字塔”的概念。以学习打乒乓球为例，首先是在互联网海量数据中，从理论上学习上旋球、下旋球是怎么回事；接着有针对性地观看世界冠军的视频来学习动作模式；再通过发球机（Switch 上的乒乓球互动游戏没准也可以）来模拟练习；最后是教练手把手示教——按照这套逻辑，机器人就可以学会人类的行为了。

机器人上学篇（下）：他们都说我今年要行了……我，行么……

GO-1 最大的价值同样是让机器人通过小样本甚至零样本来实现泛化，训练数据集可以比以往降低1-2个数量级。并且，GO-1 可以结合互联网数据和真实的人类示教数据，增强了模型的感知、理解和操作能力，还能适应不同的机器人形态，实现“一脑多形”的跨本体应用。

几乎是在同一时间，Google DeepMind 也发布了两款机器人模型——Gemini Robotics 和 Gemini Robotics-ER。

前者是一个“高级VLA”模型，同样是增强了机器人的泛化理解能力，比如让从未见过篮球的机械臂知道“扣篮”是什么、该怎么完成；后者的 ER 代表“具身推理（embodied reasoning）”，试图模仿一种人类的行为——基于对物理世界的直觉理解，猜测与一个新物品的互动方式——但是是以机器人的行为模式。比如，人看到一杯热咖啡，可能会下意识去抓握手柄，但对机器人来说，全面握住杯子才是可靠性更高的反应。

如果没有自研的推理模型怎么办？还可以试试接入开源的 DeepSeek-R1。

机器人上学篇（下）：他们都说我今年要行了……我，行么……

优必选机器人就在2月宣布接入该模型，初步测试结果显示机器人的“零样本推理能力”有所提升。不过在实际落地应用之前，还需要经过足够的真实场景去训练调优。

马斯克认为，到 2040 年全球人形机器人数量将达到 100 亿台——而截至 2024 年末，人形机器人销量可能才刚达到万台级别。这中间“天堑”一般的 gap，还有待各家厂商突破。

也许，真的就是从今年开始。

到 2040 年我们走着瞧。好好吃饭、好好睡觉、好好运动，保持健康，可别到时候让机器人笑话啊。

机器人上学篇（下）：他们都说我今年要行了……我，行么……

文章来自于“果壳”，作者“冰点”。

机器人上学篇（下）：他们都说我今年要行了……我，行么……

关键词: AI , AI机器人 , 具身智能 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner