机器人上学篇(下):他们都说我今年要行了……我,行么……

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
机器人上学篇(下):他们都说我今年要行了……我,行么……
7871点击    2025-04-21 10:02

就在今年么?


你也许在近几个月不止一次地看到类似的消息:2025 年会成为人形机器人量产元年。


这……能信么?


机器人上学篇(下):他们都说我今年要行了……我,行么……


最近,的确有多家机器人厂商公布了 2025 年的量产计划:


特斯拉计划生产 1 万台 Optimus;Figure AI 预计未来 4 年将量产 10 万台;1X 预计量产数千台 NEO 机器人;国内的智元、宇树、优必选也都宣称在积极推进量产。


既然像前两篇说到的那些难题如此密布,那这样的25年新年计划是不是太乐观了?可别跟我每年的New Year Resolution一样啊……


机器人上学篇(下):他们都说我今年要行了……我,行么……


要么烧钱、要么烧脑


前文提到机器人数据采集的两种常见手段,是在真实世界/仿真世界里进行训练,并收集相关数据。


机器人上学篇(下):他们都说我今年要行了……我,行么……


其中,真机训练始终是一条“艰难而正确的路”,需要不小的“钞能力”。现在看来,很可能还是需要“大力出奇迹”——比如国家和地方政府亲自下场支持。


当前,北京和上海都是由国家工信部和当地政府联合,建设具身智能数据采集场,并牵头制定了一系列数据标准。2025 年 4 月,北京还将举办世界人形机器人运动会和半程马拉松比赛。


深圳市政府紧随其后。3月3日,深圳围绕人工智能发展行动计划连发三文,其中两则重点提到了“具身智能”,包括“构建跨本体多样性开源数据集”、“在宝安、龙华等区建设具身智能数据采集基地”、“开发真机数据采集平台和数据仿真平台”等与数据采集直接相关的内容。


广东省的做法看上去更加“简单粗暴”——打钱!根据广东省政府 3 月 10 号发布的文件,国家级重点项目可拿到 1 亿元支持;创建人工智能和机器人制造业创新中心,最高可获 5000 万元支持;针对机器人开源项目给予最高 800 万元资助;企业、科研院所主导制定机器人行业标准,最高可给予 50 万元资助……


当然,跟砸钱建设真机训练场相比,在仿真环境中训练的性价比要高得多。各大科技公司也正在绞尽脑汁,探索如何给机器人搭建更完美的“赛博世界”——也就是由 AI 生成的世界模型。


不光赛亚人有自己的精神时光屋,机器人也有——(对于某些场景和特定数据)在仿真平台训练一天,可能相当于真实世界里180天的效果。上海人工智能实验室的科学家表示,算上人力和机器成本,获得一条真机数据可能需要十几元,而一条仿真数据只需要两分钱。


机器人上学篇(下):他们都说我今年要行了……我,行么……


目前,世界模型中最大的明星,是英伟达的 Cosmos。根据英伟达自己的信息,人形机器人制造商 1X、Agility Robotics、Figure AI 等均已使用该平台,小鹏汽车也将用其来加速人形机器人的开发。


在人形机器人以外的领域,Uber 正在应用 Cosmos 研究自动驾驶;埃森哲和凯傲软件也基于 Cosmos 实现了仓库物理信息的数字化,以训练仓储机器人。


谷歌 DeepMind 团队也在下注“世界模型”。DeepMind 在 2024 年 12 月发布了 3D 世界模型 Genie2,可以模拟重力、烟雾、水流、灯光等物理世界的效果,生成长达1分钟的“一致”世界。Genie2 正在与现有的具身智能项目结合,为其提供仿真训练环境,有望应用在谷歌自研的机械臂 ALOHA、自动驾驶 Waymo 以及谷歌投资的人形机器人 Apptronik 上。


还有一些公司和团队致力于多模态世界模型,比如李飞飞带领的 World Labs,以及字节跳动、昆仑万维等中国公司。这些模型同样可以根据简单的文本或图片描述生成一段 360° 可交互视频,但目前主要应用在游戏、动画等领域,还未见公布的具身智能应用案例。


好消息!机器人泛化难题有望解决


具身智能最大的想象空间,就在于 AI 究竟能在多大程度上赋能机器人的行为。


机器人上学篇(下):他们都说我今年要行了……我,行么……


限制人形机器人大规模应用的一道门槛,就是泛化能力普遍不足。机器人学习一个复杂动作需要几千甚至上万条数据作支撑,而一旦操作环境发生变化——比如需要抓取的物体形状和材质发生了改变,机器人可能就要“从头学起”了。


但 AI 的发展带来了转机,机器人有望通过较小的数据集实现对物理操作的泛化理解。


2月20日,Figure AI 发布了用于通用人形机器人的动作模型 Helix。借助该模型,机器人可以按照自然语言提示拿起几乎任意一种小型家居物品——包括它从未见过的物品。


Helix 还能够将丰富的语义知识直接对应到机器人的动作上,比如听到“捡起沙漠物品”的指令时,机器人能识别桌上的玩具仙人掌,并完成“抓取”的精确动作。这种转换能力的提升与 Helix 同时结合了快思考(System1)和慢思考(System2)的两种系统有关。简单来说,机器人可以用慢思考来完成推理、生成准确的判断,用快思考来即时执行、调整动作。


机器人上学篇(下):他们都说我今年要行了……我,行么……


Helix 的创新优势还在于其仅使用了 500 小时的高质量监督数据做训练,数据量不到之前 VLA(视觉-语言-动作)模型的5%,而且无需针对特定任务进行微调。并且它还是第一个能同时运行在两个机器人上的动作模型,实现了机器人之间的无缝合作。


当前,配备了 Helix 的 Figure 机器人能够在各种容器中拾取和放置物品、操作抽屉及冰箱、与另一个机器人对接、以及操控数千种全新的物体。


中国厂商的机器人产品也在实现类似的效果。3月10日,智元机器人发布了GO-1具身基座大模型。GO-1 基于 VLA 模型提出了创新的ViLLA(Vision-Language-Latent-Action)架构。根据智元机器人的解释,该架构的底层逻辑是“数字金字塔”的概念。以学习打乒乓球为例,首先是在互联网海量数据中,从理论上学习上旋球、下旋球是怎么回事;接着有针对性地观看世界冠军的视频来学习动作模式;再通过发球机(Switch 上的乒乓球互动游戏没准也可以)来模拟练习;最后是教练手把手示教——按照这套逻辑,机器人就可以学会人类的行为了。


机器人上学篇(下):他们都说我今年要行了……我,行么……


GO-1 最大的价值同样是让机器人通过小样本甚至零样本来实现泛化,训练数据集可以比以往降低1-2个数量级。并且,GO-1 可以结合互联网数据和真实的人类示教数据,增强了模型的感知、理解和操作能力,还能适应不同的机器人形态,实现“一脑多形”的跨本体应用。


几乎是在同一时间,Google DeepMind 也发布了两款机器人模型——Gemini Robotics 和 Gemini Robotics-ER。


前者是一个“高级VLA”模型,同样是增强了机器人的泛化理解能力,比如让从未见过篮球的机械臂知道“扣篮”是什么、该怎么完成;后者的 ER 代表“具身推理(embodied reasoning)”,试图模仿一种人类的行为——基于对物理世界的直觉理解,猜测与一个新物品的互动方式——但是是以机器人的行为模式。比如,人看到一杯热咖啡,可能会下意识去抓握手柄,但对机器人来说,全面握住杯子才是可靠性更高的反应。


如果没有自研的推理模型怎么办?还可以试试接入开源的 DeepSeek-R1。


机器人上学篇(下):他们都说我今年要行了……我,行么……


优必选机器人就在2月宣布接入该模型,初步测试结果显示机器人的“零样本推理能力”有所提升。不过在实际落地应用之前,还需要经过足够的真实场景去训练调优。


马斯克认为,到 2040 年全球人形机器人数量将达到 100 亿台——而截至 2024 年末,人形机器人销量可能才刚达到万台级别。这中间“天堑”一般的 gap,还有待各家厂商突破。


也许,真的就是从今年开始。


到 2040 年我们走着瞧。好好吃饭、好好睡觉、好好运动,保持健康,可别到时候让机器人笑话啊。


机器人上学篇(下):他们都说我今年要行了……我,行么……


文章来自于“果壳”,作者“冰点”。


机器人上学篇(下):他们都说我今年要行了……我,行么……

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner