当Figure AI用390亿美金估值描绘端到端模型的未来,当波士顿动力展示头能360度旋转的Atlas,几乎所有目光都聚焦在「大脑」与「身体」的进化上。
但有一家中国公司,却选择另辟蹊径:他们把宝押在了一副数据手套上,潜入物流仓库和工厂车间,去采集工人最真实、一手的操作数据。
2026年2月初,灵初智能创始人、CEO王启斌向我们表示,「数据量不够,模型层面的任何精巧架构调整都毫无意义」。

他们正尝试用「人类原生数据」的采集与训练体系,直击具身智能最根本的生存难题——数据荒,并在最朴素的物流仓库里,验证其商业与技术闭环的可行性。
数据荒原上的抉择:
放弃「夹爪」,All in「人类原生数据」
整个具身智能圈,弥漫着一股相似的焦虑。
隔夜的新消息总在加剧这种焦虑:Gen-0宣布手握27万小时真实交互数据,Sunday的UMI工具在社区病毒式传播,Physical Intelligence的π0.6展示了惊人的策略泛化能力。大洋彼岸的每一个新Demo,都像在反复追问:我们的数据在哪里?
焦虑的源头非常具体——机器人学习的命门,卡在了「数据」上。
这与大语言模型的境遇截然不同。GPT们可以畅饮互联网上近乎无限的文本与图像,数据获取成本极低。但机器人不同,它的每一次交互、每一个动作,都必须在物理世界中「一拳一脚」地打出来。这背后是硬件的磨损、时间的消耗和难以避免的试错成本。
获取高质量机器人数据的难度和代价,与爬取网络文本完全不在一个量级。这才是所有具身智能玩家必须共同面对的、最坚硬的现实。
「所有人都在谈论数据飞轮,但最难的恰恰是冷启动」,王启斌直言。这位在云迹科技、京东历经机器人产业化多年的老兵,深知传统项目制机器人方案的问题。每一个新场景都意味着硬件定制、算法重写,无法形成规模效应与通用能力。
2024年9月灵初智能成立时,团队做出了两个看似违背当时潮流的决策:不优先解决问题,而是专注「操作」这一更核心的难点;不做简单易行的夹爪,而是坚定地选择五指灵巧手。
「我们瞄准的是一个价值十亿美元级别的问题」,王启斌判断,具身智能将是一个以十年为单位的漫长赛道,而当下整个产业仍处于「硬件初步可用、数据刚刚起步、模型远未成熟」的极早期阶段。
行业主流的数据采集方案是「机器人中心(Robot-Centric)」,典型代表是UMI模式:让人手持一个与目标机器人完全相同的夹爪进行操作。这套方案的优点是成本相对较低,但存在一个根本性缺陷——它采集的是「机器数据」,而非「人类数据」。
联合创始人陈源培一针见血地指出:「UMI的本质是人带了一个工具,采集的是机器人夹爪的数据。它无法泛化,你今天用UMI采的数据,根本无法直接用到五指灵巧手上」。
这位拥有跨界背景的00后,从土木工程转向AI,师从北京大学杨耀东教授,并在斯坦福大学李飞飞实验室访学,深度参与了早期触觉数据手套的研究。
因此,灵初智能选择了一条更为激进的技术路线:「人类中心(Human-Centric)」。

他们自主研发了全球首个灵巧手真实世界数采引擎Psi-SynEngine。
其中的真人数据采集手套能够精确捕捉人手的21个关节自由度、高精度触觉信息,并同步记录头戴与手部视角的视觉数据。
其革命性不在于硬件本身,而在于部署模式:让物流分拣员、商超收银员、家政服务人员在日常工作中无感佩戴,在不改变任何既有作业流程(SOP)的前提下,自然采集人类最本真的操作数据。

成本是这套方案的杀手级优势。王启斌透露,通过手套采集数据的综合成本,可以降至真机遥操作方案的十分之一左右。
未来,通过可携带的便携式众包版本,这一成本还有进一步下探的空间,为百万小时级数据采集扫清经济障碍。
更关键的是数据的「泛化性」价值。人手数据通过算法迁移(Retargeting),可以适配到不同构型、不同尺寸的机器人末端执行器上。
而UMI采集的夹爪数据,则与特定硬件深度绑定,「今天用这个夹爪采的数据,明天换一个夹爪可能就完全作废了」。在追求通用能力的长期战中,人类数据的潜在价值呈指数级放大。
从技术构想到商业落地:
将现有三个场景做深、做透
再理想的技术路径,也必须在最苛刻的商业场景中接受考验。
灵初智能将落地切口精准地锁定在物流行业的细分场景,例如配货打包、装箱检查、按订单分拣。

「外界大大低估了物流场景的复杂性,这绝不仅仅是简单的『抓取-放置』(Pick and Place)」,王启斌解释,以不少公司都宣称要做商超场景为例,看似只是补个货,真实作业却是一长串的复杂操作链:整箱补货、商品上架、挂钩悬挂、冰箱内饮品整理乃至过期商品下架,每一步动作都不同、都在变化。对机器人而言,真正的挑战是要持续稳定地完成整套流程。
进展比预期更为迅速。在服装供包这一场景中,灵初智能的系统已经实现了对上千种不同尺码、材质、形状服装的稳定抓取与供包,每小时可以处理800件衣服,据称这是目前国内该场景已知的最高效率水平。该系统已进入客户现场「实战跟跑」,进行最后的稳定性打磨,而装箱检查场景也已完成首阶段验证。

「我们展示的不是实验室Demo,而是已经产生初步商业收入的解决方案」,王启斌在肯定进展的同时保持了高度克制。
他明确表示,2026年公司的策略是「收敛而非扩张」:不会盲目追求覆盖场景数量的增长,而是集中所有资源,将现有的三个场景做深、做透,实现从POC到规模化发货的完整闭环。
在技术架构的深层,灵初智能展现出与其团队年龄不相符的成熟与系统化思考。
在商业模式上,灵初智能旗帜鲜明地拒绝成为「数据批发商」。「纯粹出售原始数据没有长期价值」,陈源培判断,「最终要么进化成能定义数据标准和格式的模型公司,要么退化为人力外包公司」。
灵初规划的闭环是:通过自研设备采集人类数据 → 训练出具有强泛化能力的预训练模型(大脑)→ 在垂直场景中通过「预训练+少量场景数据微调」实现快速部署与商业化 → 商业落地产生的数据及收益反哺更大规模的数据采集与模型训练。

具身的智能涌现
百万小时只是门槛
站在2026年初的时间点,灵初智能为自身与行业划下了一道清晰且雄心勃勃的基线。
数据规模被确立为不可妥协的硬性门槛。「我敢肯定,通用操作能力的涌现一定是百万小时量级以上的事情」,陈源培援引了自动驾驶领域的先例——特斯拉FSD V12验证了端到端智能驾驶模型需要百万小时级数据的喂养。
而具身智能面临的环境复杂度和动作维度远高于驾驶,「这个数据量级只会更多,不会更少」。
因此,公司2026年的首要战略目标,就是将其人类原生数据的规模推至100万小时,并基于此训练出新一代的通用操作预训练模型。
产品路线图已然清晰:2026年,发布一版能够完成长周期复杂任务、展现强泛化能力的模型;同时,未来计划推出具备类人交互流畅度、堪比当年ChatGPT震撼效果的里程碑式模型。

谈到可能来自互联网大厂或跨界巨头的竞争,灵初智能显得很淡定。
「具身智能领域存在着严重的『数据孤岛』效应」,陈源培分析道,「物流场景的数据与工业装配场景的数据分布差异极大。
大厂或许能在内部搭建仿真环境或小型试验场收集数据,但他们难以获取真实业务场景中‘野生的’、高价值的数据流。」
「如果我们能先一步把机器人铺进真实的物流仓库、工厂车间,把住数据的源头,这个雪球滚起来」,陈源培认为,「后来者哪怕资金再雄厚,他们获取数据的成本、速度和质量,都会跟我们拉开差距。
在具身智能这个领域,真实数据反馈垒起来的护城河,可能比算法论文的护城河还要深、还要宽」。
灵初智能的路径很「中国」:不玩炫技Demo,看商业订单;不空谈AGI,扎进物流、车间;不信算法神话,死磕数据基建。
他们认准了,决定机器人未来的「原始矿藏」,就在这最苦最累的数据土壤里。
文章来自于微信公众号 "新智元",作者 "新智元"