全球看中国，灵初智能用10万小时人类数据写下具身智能的中国答案

10315点击 2026-05-14 16:02

2026 年，“世界模型” 正在成为具身智能行业的高频词。越来越多公司开始将自己的技术路线表述为机器人世界模型，试图用可学习的环境模型提升机器人训练效率。

灵初智能（PsiBot）也常被放入这一叙事中。但在灵初联合创始人陈源培看来，世界模型并不是灵初的核心方向，而是服务于数据迁移的工具。“我觉得做世界模型不算转型。世界模型只是个工具。我们从 Day one 开始，就是在做人类数据。”

灵初真正关注的问题是：真实人类操作数据，能否规模化转化为机器人训练数据？

在灵初成立前，陈源培已经开始探索用人类手部运动数据训练灵巧操作。这项工作后来发表于 CoRL 2024，也成为灵初押注 human data 路线的重要技术来源。如今，灵初在更大规模的数据实践中给出了一个更明确的判断：在 10 万小时量级上，人类数据已经可以大幅替代真机采集数据。

这一路线里，VLA、世界模型、强化学习、外骨骼手套都不是单独的终点。它们共同指向同一件事：构建一套从人类数据到机器人 policy 的转化管线。

全球看中国，灵初智能用10万小时人类数据写下具身智能的中国答案

Morgan Stanley Research 统计显示，截至 2026 年 4 月底，2026 年全球人形机器人 VC 融资额已超过 2025 年全年。资本加速进入后，具身智能行业的数据、模型与落地能力正在被重新定价。

一、从 Day One 开始的人类数据路线：从 robot-centric 到 human-centric

具身智能的数据问题，本质上是规模、质量和迁移效率之间的权衡。

过去几年，行业主流路线之一是 teleoperation。通过同构或近似同构的遥操作设备，让人直接控制机器人或影子臂采集数据。这类数据与机器人本体更接近，迁移难度低，训练链路相对直接。

但 teleoperation 的问题也很明显：采集成本高、设备重、场地依赖强、操作员需要训练，很难获得足够大的数据规模。对于试图训练通用机器人能力的公司来说，素材场式的数据生产方式很快会遇到上限。

另一类路线是 ego data，即用摄像头采集人类第一视角操作数据。它的成本更低，也更接近真实人类行为，但新的问题随之出现：人和机器人之间存在天然 gap。人的关节结构、骨骼自由度、动作习惯、视觉视角都与机器人不同。直接把这类数据用于机器人训练，往往会遇到迁移效率低、噪声大、动作不规范等问题。

灵初的判断是：迁移问题可以通过模型和算法管线解决，但数据规模问题必须在采集方式上解决。

“我们当时设计这套手套，一个很核心的原因就是能尽量不影响人的日常工作。比如让一个收银员戴上我们的手套工作，他基本上不会有什么影响。但你让他拿着两个夹爪工作，扫码都扫不了。”

这意味着，灵初想进入的不是专门搭建的机器人素材场，而是真实劳动场景：物流、仓储、收银、工厂等持续产生人类操作行为的场景。

这一路线与 UMI 等 robot-centric 方案形成对比。Robot-centric 方案通过形态更接近机器人夹爪的设备采集数据，迁移效率更高，但操作者动作会受到限制，很难进入真实劳动场景。灵初选择 human-centric，接受更高的迁移难度，换取更大的数据规模上限。

目前，灵初并行采集两类人类数据。

第一类是外骨骼手套数据。它通过机械连接捕捉手部和手臂动作，不依赖 IMU，精度更高，也可以记录更完整的双手双臂自由度。

第二类是纯视觉数据，也就是英伟达和模型厂商押注的 EGO 路线：通过头部和腕部摄像头记录人类操作过程，不使用手套，成本更低，规模化能力更强，但动作精度相对弱一些。

在灵初的设计里，手套的自由度尽可能做高，并不只是为了适配自家的灵巧手，而是为了提升数据的跨本体迁移能力。换句话说，灵初想采集的不是绑定某一个机器人硬件的数据，而是未来可以迁移到不同机器人本体上的人类操作数据。

二、W0 和 R2：用世界模型完成人类数据到机器人 policy 的迁移

人类数据路线的核心难点，不是采集，而是迁移。

人类动作天然带有噪声和不规范性，人的动力学也不同于机器人。灵初的解决方式是：用强化学习，在世界模型中完成迁移。

灵初的系统主要由两个模块构成：W0 和 R2。

R2 是 policy，最终部署到机器人上，负责实际执行操作。W0 是 world model，更准确地说，是一个 action-conditioned world model：给定当前状态和动作，预测下一帧状态。

在训练阶段，W0 扮演可学习的仿真器。R2 不直接在真实机器人上大量试错，而是在 W0 构建的环境里通过强化学习在线迭代。W0 提供环境反馈，R2 在其中不断探索，把人手动力学迁移到机器人动力学上，并生成新的训练数据，再反哺 R2，形成闭环。

部署阶段，W0 退场，机器人上只运行 R2。

“如果模型训好了，自然就不需要 W0 了。W0 是个仿真器，它是个提升的过程，不是部署的一部分。”

这也是陈源培不愿意把灵初简单定义为 “世界模型公司” 的原因。在他的理解里，世界模型不是单独的方向，而是数据转化管线中的一个中间模块。它的作用不是替代真实世界，而是帮助人类数据完成到机器人 policy 的迁移。

“算法本身没那么重要，哪个好用就用哪个。我们更核心的还是人类数据，以及把这套数据转移成高质量机器人数据的管线。”

在这一体系中，数据质量也不完全依赖人工审核。灵初将判断权交给模型本身：一条数据能不能在世界模型里成功转换，能不能让 policy 跑通，就是筛选标准。能跑通的数据留下，跑不通的数据丢掉。随着模型能力提升，数据筛选边界也会动态变化。

陈源培认为，灵初在人类数据路线上的一个关键阶段性结果，是 10 万小时量级的内部验证。

“我们基本没有真机的素材场，真机数据非常非常少，靠人类数据也能做出来跟那些采了几万小时 teleoperation 数据的公司差不多的效果。”

这指向一个更核心的问题：机器人基础模型是否必须依赖大规模真机 teleoperation 数据？

陈源培的判断是，真机数据仍然重要，但它不一定是唯一燃料。如果人类数据采集足够规模化，迁移管线足够有效，那么大量真机数据可以被人类数据部分替代。真机数据更像是校准、验证和少量 fine-tuning 的补充，而不是全部数据来源。

这并不意味着人类数据天然等同于机器人数据。相反，人类数据要真正可用，必须经过采集系统、世界模型、强化学习、数据筛选和 policy 训练的完整管线。

灵初试图建立的，是这套系统能力。

三、从数据集到落地：SynData、小全栈与路线边界

截至 2026 年 5 月 13 日，灵初智能 SynData 数据集在 Hugging Face 上下载量已达约 1.46 万次。

全球看中国，灵初智能用10万小时人类数据写下具身智能的中国答案

Hugging Face链接：https://huggingface.co/datasets/PsiBotAI/SynData

这是基于 R2 和 W0 体系的新一代大规模真实世界多模态数据集，覆盖视觉、语言、动作等维度。依托自研外骨骼手套系统，SynData 能够捕捉双手双臂完整自由度的高精度操作数据，同时结合裸手数据与自然人类交互行为，面向动作建模、操作学习、道具学习及多模态智能研究开放使用。

对灵初而言，SynData 是其技术路线的一次阶段性外化：以真实人类操作数据为底座，通过世界模型和强化学习完成迁移，再训练出可部署到机器人上的 policy。

但从商业化阶段看，陈源培并不认为行业已经进入 “通用基模” 阶段。

他把灵初当前的位置分为几层。

第一层是产能期。现阶段，灵初的收入主体仍然来自硬件，包括外骨骼手套、采集系统以及素材场建设。数据收入预计要到明年才会逐渐成为主体。

第二层是调 policy 期。当前机器人进入具体客户场景，仍然需要针对任务、环境和节拍要求调整 policy。“真正不需要调的通用基模，还要大概三五年左右。”

第三层才是基模期。这是目标，但不是当下。

这也解释了灵初为什么选择做 “小全栈”。陈源培对 “小全栈” 的定义是：以模型为核心往下做，关键环节自己掌握，但做到核心零部件为止。比如触觉传感器、精密减速器这类零部件，灵初选择外采，不会自研。

原因并不是为了展示全栈能力，而是落地需要。“你要做落地，硬件的稳定性、节拍要求，跟硬件高度耦合，现在没办法，只能自己做。” 在现阶段，机器人落地不是单纯的软件问题。一个 policy 能否稳定运行，取决于机器人本体、执行器、传感器、控制系统、任务节拍和场景约束。模型和硬件仍然高度耦合，只做模型很难完成真实交付。

对于行业其他路线，陈源培的判断也比较明确。关于 Genesis 等近期受到关注的机器人 demo，他认为不需要神化，也不应否定。“如果我们拿那套硬件训一下，他们那些 demo 我们也都能做出来。”

关于仿真，他相对悲观。在他看来，仿真是重要工具，但如果期待仿真本身出现巨大突破，并单独解决真实物理世界中的接触、长尾和高精度操作问题，概率并不高。

那么，human data 路线会不会被证伪？

陈源培认为，如果这条路线最终被证伪，大概只有两种可能：第一，仿真出现巨大突破，可以低成本生成足够真实、足够多样、足够可迁移的数据；第二，某家公司拥有足够强的资金和工程能力，把真机数据飞轮真正跑起来。

相比之下，他认为第二种可能性更高。

在他看来，human data 路线真正要证明的，不是人类数据比真机数据更干净，而是在规模、成本、迁移效率和泛化能力之间，是否能形成更优的综合解。

这一路线的护城河也不只是数据量。

“算法其实没有秘密。但数据，包括整个数据梳理的管线、积累和处理的方法，会影响你很长一段时间。有些人踩了三年的数据，你想马上追上来，非常难。”

数据之外，还有组织能力。

“整个组织的文化、结构、价值观，也很重要。”

从论文到公司，陈源培认为灵初做的一直是同一件事：让人类数据能被机器人用起来。VLA、世界模型、强化学习都是工具，真正的方向是通用机器人能力。

文章来自于"机器之心"，作者 "机器之心"。

关键词: AI新闻 , 具身智能 , 灵初智能 , PsiBot , SynData