具身智能2024：大模型“凿壁”，机器人“偷光”

7900点击 2024-12-12 14:22

将世界模型装入机器人。

两周前，银河通用官宣完成5亿元战略融资。

成立一年半，拿到30多个知名基金投资，北京、上海、深圳、香港四地政府基金加持，累计融资额12亿元，银河通用创始人王鹤在近日公开表示，“银河通用正在冲刺独角兽。”

这是2024年国内具身智能热潮的真实写照。

实际上，早在今年年初，优质机器人团队已经成了全球投资人疯抢的标的。

先是有美国Figure AI B轮拿到了6.75亿美元（约合49亿元）巨额融资，后又有国内宇树科技拿到10亿元B2轮融资。

这两家机器人公司，如今已经是具身智能领域准独角兽。

此外，据GGII统计数据显示，2024年1月-10月，全球人形机器人行业共发起了69起融资，融资总额高达110亿元。

在具身智能这波历史大机遇下，2024年注定将成为机器人总动员的一年。

不过，就具身智能而言，2024年是大幕拉开的一年，是百家争鸣的一年，也是产业热切期望的一年，但却不是成为产业规模化落地的一年。

对于大模型+人形机器人这一关注度最高的具身智能模式，我今年在和从业者交流中听到最多的一个关键词是，“还很遥远”。

那么，在具身智能被推上全球科技竞争制高点、这么多热钱涌入这一赛道的这一年里，具身智能究竟怎么样了？

01 具身智能的数据难题

数据成就了OpenAI，数据成就了大模型，作为奥特曼眼中通用人工智能的终极形态，数据如今也正在成就具身智能。

ICRA是由IEEE机器人与自动化协会主办的全球性机器人学术会议，也是全球机器人领域最权威的学术会议之一，在今年5月日本横滨举办的ICRA 2024上，会议的最佳论文奖最终给到了一个名为Open X-Embodiment。

Open X-Embodiment包含两项成果，其一是一个机器人学习数据集，其二是基于该数据集训练的机器人运动控制模型RT-X。

具身智能2024：大模型“凿壁”，机器人“偷光”

其中，最为稀缺的是机器人学习数据集，这篇论文中的数据集是由21个高校和研究机构收集的22个不同机器人的数据集，这个数据集最终包含100多万条机器人的真实运动轨迹数据，并由此展现出了527种机器人技能。

基于这一成果，谷歌在今年还训练出了一个数据规模达到7B的视觉-语言-动作大模型OpenVLA，后者是今年具身智能领域一个标志性事件。

不过，即便如此，OpenVLA依然无法实现普遍的泛化性。

银河通用团队就曾就OpenVLA模型在实验室中进行过一系列测试，王鹤发现，“当在实验室换一种摆放方式让基于OpenVLA的机器人执行抓取任务时，机器人几乎无法抓取任何物体。”

小样本学习，高成功率部署，成了摆在具身智能机器人面前的第一道难题。

具身智能2024：大模型“凿壁”，机器人“偷光”

实际上，现在行业中就连要打造“小样本学习，高成功率部署”的VLA模型究竟需要多少数据量，依然争议颇多。

在前不久的一场机器人主题圆桌论坛上，这个问题就曾成为焦点。

千寻智能联合创始人高阳就指出，“我们在做具身智能Scaling Law研究时发现，仅需要2000条数据，就可以让机器人在任意场景、对任何物体进行（对精确度要求不高的）泛化操作。”

同时还作为清华大学交叉信息研究院助理教授，高阳和他的学生针对这一问题的研究，也在今年的一个机器人顶级学术会议CoRL 2024上获得了最佳论文奖。

具身智能2024：大模型“凿壁”，机器人“偷光”

不过，对此，跨维智能创始人贾奎教授提出了不同的看法，他指出：

“无论是机器人倒水、开冰箱，还是其他任何动作，如果仅仅需要2000条、乃至20000条数据就能实现泛化，我们其实现在就能立刻将这类机器人进行落地并赚到钱，但实际上我们并没有看到这样的情况发生。

这是因为具身智能的数据类型是异构多样的，有视觉、力觉、触觉等不同传感器的数据，有基于不同机器人本体自身的状态数据，也有不同动作轨迹数据，由此形成的异构数据的信息量、复杂度差别是巨大的，任何一项技能的泛化没有上亿条数据是不可能实现的。”

这是具身智能仍处于混沌初开、百家争鸣时期的具象化体现，与人工智能技术发展不同，现在的具身智能还需要一个像ImageNet一样的基准数据集。

2010年，斯坦福大学李飞飞教授基于ImageNet数据集，在全球发起了ImageNet挑战赛，在这一为期八年的针对视觉识别的AI挑战赛中，人工智能算法识别物体的准确率从71.8%提升到了97.3%。

具身智能2024：大模型“凿壁”，机器人“偷光”

在这之中，今年的诺奖得主Geoffrey Hinton的团队成名作之一AlexNet，正是2012年ImageNet挑战赛的冠军。

李飞飞用数据重新定义了人们对模型的看法，ImageNet挑战赛背后的统一基准测试则推动了人工智能技术又向前迈了一步。

那么，如今的具身智能有这样的统一基准吗？

答案是，没有。

不过，我们能够看到的是，李飞飞团队再次构建了具身智能基准测试环境BEHAVIOR-1K，国内则有通研院朱松纯团队搭建了通用人工智能标准、评级、测试与架构。

具身智能2024：大模型“凿壁”，机器人“偷光”

此外，包括北京、上海等地涌现出的具身智能创新中心，已经在构建具身智能数据集，甚至公版人形机器人。

无论是学术界，还是产业界，身在其中的科学家们正在加紧迈出benchmark这一步，让具身智能能够从分散作战归于集中发力。

基准测试固然重要，但模型发展更为关键。

02 将世界模型装入机器人

什么是具身智能？

我经常举的一个例子是：

一群研究人工智能的科学家发现，人工智能技术已经发展到一定阶段，已经能够将人工智能算法加载到硬件产品上来更直接地在现实世界中工作，于是就有了具身智能。

所以，在我的理解中，具身智能本身是人工智能技术发展到一定阶段的产物，这个阶段的一个重要起点是大模型，或者说是世界模型。

将大模型与机器人结合，是具身智能的第一要义。

具身智能2024：大模型“凿壁”，机器人“偷光”

由于机器人本身是一个拟人设计产品，我们能够看到，现在具身智能大模型有一条主流设计路线是基于人类大脑快慢系统逻辑——快系统模拟人类进行快速直觉反应，慢系统模拟人类进行反思、推理。

作为国内人工智能领域的顶级研究机构，智源研究院内部在研发具身智能大模型时，正是基于这一设计路线，并在同步跟进端到端、分层结构两条技术路线，这里我们可以以智源基于两条路线已经公开的研究成果有一个直观理解。

针对复杂长程任务，智源团队设计的端到端具身大模型任务执行逻辑为：

首先智源团队设计了一个快系统，用于产生快速直觉的动作，当通过快系统执行任务失败时，再通过慢系统检测、定位任务失败节点，并进行纠正。

在这个系统中，另一个关键程序是快系统的持续知识更新模块，将慢系统在执行失败任务过程中积累下来的知识持续转移到快系统中，提升快系统的任务执行能力。

具身智能2024：大模型“凿壁”，机器人“偷光”

针对端到端目前无法胜任的更为复杂的长程任务时，基于分层结构的具身大模型将会起到更好的效果。

智源团队设计的分层结构具身大模型任务执行逻辑为：

首先通过大脑系统进行长程任务拆解、推理，并为小脑提示关键点、规划操作路径。

为了训练这样一个大脑大模型，智源团队为大脑大模型收集、标注了一个专门的数据集，设计了多阶段的训练策略。

具身智能2024：大模型“凿壁”，机器人“偷光”

然后再通过小脑模型执行拆解后的原子任务。

作为一个可以执行端到端任务的小脑，既需要高效，也要具备一定的推理能力，智源团队选用RoboMamba作为小脑的大模型底座。

具身智能2024：大模型“凿壁”，机器人“偷光”

为了跨越不同机器人本体使用，智源团队还特别为小脑设计了一个高效微调算法，当面临不同本体、场景、任务时，只选择一些有代表性的参数进行微调，从而让它适配相应本体、任务和场景。

据智源官方透露，相较于OpenVLA需要重新微调70亿参数，该模型需要微调的参数只有300万左右的参数，效率可以达到9Hz。

这是大模型带给机器人的新思路，也让机器人在大脑层面有了进一步拟人的可能性，当然也是现在具身智能高潮迭起的诱因。

加速进化创始人程昊就曾指出，“这次我们遇到的历史机遇和以往不同的是，过去的历史机遇更多是通过结合AI算法让硬件变得更自动化，这波机遇是快速发展的人工智能已经开始对真实世界有较强的感知并影响这个世界，而现有的硬件载体无法很好地感知世界、影响世界，人工智能亟需一个新的应用载体。”

什么是这个新载体呢？

程昊和与他同样选择这两年在机器人领域创业的不少创业者有一个相同的观点，那就是：

这个新载体是人形机器人。

03 “遥远的”人形机器人

要不要做人形机器人，在2024年似乎已经不再是一个问题。

早在2023年10月20日，工信部就印发了《人形机器人创新发展指导意见》，意见中指出，到2025年，要初步建立人形机器人创新体系，“大脑、小脑、肢体”等一批关键技术取得突破，确保核心部组件安全有效供给。

不过，我们这里谈到的具身智能不只有人形机器人。

具身智能是一个广义概念，凡是符合「大模型+硬件」的组合，都可以算作智能体，就连智能汽车，本质上也属于具身智能。

本文提到的具身智能定义稍微收窄一些，专指「大模型+机器人」，即便如此，四足机器人、轮式机器人、人形机器人都属于具身智能的机器人载体。

而之所以大家对人形机器人关注度如此之高，是因为人形机器人是具身智能的终极载体。

具身智能2024：大模型“凿壁”，机器人“偷光”

然而，正因人形机器人是具身智能的终极形态，人形机器人无论是大脑、小脑，还是肢体，都还存在着标准形成、技术迭代、成本下降的一个长期过程。

就现在来看，大模型+人形机器人（我们且称之为具身智能人形机器人）在商用领域落地还不是最好的时机。

在2024年，我们看到的是具身智能人形机器人两大中间形态正在尝试率先走入商用场景：

首先是轮足底盘+机械臂+灵巧手形态。

这种形态用轮式底盘代替了人形机器人的下肢，保留了人形机器人的灵巧手，重点在于充分发挥机器人灵巧手在分拣、搬运等方面的工作能力，银河通用的GALBOT G1是这一形态的典型代表。

据银河通用官方消息显示，GALBOT G1已经在北京大型的奔驰车厂、极氪汽车车厂、美团前置仓执行转运和搬运任务。

具身智能2024：大模型“凿壁”，机器人“偷光”

其次是经典控制算法+人形机器人形态。

这种形态保留了人形机器人的形态，但背后支撑人形机器人的算法并非大模型，而是经典的机器人控制算法，优必选Walker S是这一形态的典型代表。

据优必选官方消息显示，优必选已经与东风柳汽、吉利汽车、比亚迪、北汽新能源、富士康、顺丰等企业合作，借助经典控制算法的Walker S正在进入这些企业工厂的装配、转运、检测、维护等工序中。

具身智能2024：大模型“凿壁”，机器人“偷光”

更多真正的具身智能人形机器人，如今是被卖到了科研领域。

例如，宇树科技的人形机器人备受全球顶级高校、实验室所追捧，加速进化也选择了将科研、教育作为当下自家人形机器人商用落地的主赛道。

2024年，具身智能人形机器人两个真实的现状是：

一方面，只有人形可以兼容所有复杂地形，可以执行人类生活环境中的所有任务；

另一方面，大模型+人形机器人这条具身智能之路，依然很遥远。

文章来自微信公众号“锌产业”，作者“山竹”

具身智能2024：大模型“凿壁”，机器人“偷光”

关键词: AI , 具身智能 , AI机器人 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner