前京东智能驾驶一号位创业,「星源智」要打造通用具身大脑

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
前京东智能驾驶一号位创业,「星源智」要打造通用具身大脑
5447点击    2025-09-12 12:05

前京东智能驾驶一号位创业,「星源智」要打造通用具身大脑


在智驾行业摸爬滚打多年,刘东意识到,落地是具身智能公司能否存活下来的最重要指标。如果不能落地,即便融再多的钱也撑不到最后。


2023年底,AI多模态大模型的突破,让老智驾人刘东“坐不住了”。


刘东是前京东智能驾驶的一号位,负责京东智能驾驶产品的研发与商业闭环。但在京东物流工作时,他有一个长期的苦恼——自动驾驶物流车只解决了干线运输,却无法解决货物从车到楼的末端配送难题。


为解决这一问题,他曾开发过一个能上楼的机器人,也尝试给机器狗加一个机械臂,但都未能真正实现“最后一公里”的配送问题。


AI多模态大模型的爆发,让刘东看到曙光:“很激动,过去我们想实现的末端50米无人配送,终于有可能实现了。”


他萌生出创业的想法,想用具身智能的方式解决“无人物流”两端的问题——在前端,用机器人代替人工分拣;在后端,用机器人代替快递员配送。


恰逢半年后,北京智源研究院向刘东抛出橄榄枝,不仅提供了优越的孵化条件,还允许团队使用科研成果并支持商业化。双方对于追求具身智能的理念一拍即合,新公司“星源智”就此诞生。


前京东智能驾驶一号位创业,「星源智」要打造通用具身大脑

△星源智创始人刘东 图源:企业授权


这是一支“技术+工程+商业”的多边形战士团队。CEO刘东曾任京东智能驾驶总经理,有着丰富的商业化经验。联合创始人兼大脑科学家穆亚东是北京大学长聘副教授、智源学者,曾在华为香港诺亚方舟实验室担任研究员。


《智能涌现》获悉,“星源智”于近日完成2亿元天使轮融资,投资方来自中科创星、高瓴、元禾原点、元生创投等投资机构和智元机器人、芯联资本、国汽投资、中力实桥等产业投资方。


在技术路线上,具身智能现阶段还没有太多共识。端到端VLA大模型成为多数的选择,但也存在着现实挑战和外部质疑。


以宇树科技创始人王兴兴在8月的公开发言“对VLA模型保持怀疑态度”为代表,业内人士对于VLA路线的质疑声音也逐渐多了起来。


智驾背景的刘东对于VLA模型也有着不一样的判断。他认可端到端VLA模型是具身智能的终极路线,但也清醒地看到:目前业内都没有看到一个低成本获取真机数据的方式,因而“纯端到端模型这条路目前走不通。”


“一个低成本获取数据的方案,才是实现端到端的基础。”刘东告诉我们,分层式不是最理想的方案,但却是一种基于现状的最优解,可以让机器人“先跑起来”干活,并自主收集积累数据。正如特斯拉当年的方案,一开始也并不是端到端。


最终,星源智选择了大小脑分层的技术路线,主攻通用具身大脑,赋能具身机器人率先落地。在实际作业中,小脑主要负责运动控制和动作生成,大脑主要负责交互感知和规划决策,而大脑部分正是智驾出身的刘东所擅长的技术栈。


当前的具身智能行业,技术派创业者正偏执地追求通用具身智能理想而淡化商业化;在产业中摸爬滚打多年的“老将”刘东的选择,则更指向务实和落地。


刘东坦言,他从创业开始就意识到,能够落地其实是考验具身智能公司能否存活下来的最重要的一个衡量指标。如果不能落地,即便融再多的钱也撑不到最后。


不过,一个很难回避的问题是,在诸多具身公司选择自研具身智能模型的背景下,星源智的具身大脑会有市场吗?


星源智的策略是一种双轨并行的商业模式,一方面作为Tier 1供应商,向机器人本体厂商提供软硬件一体的“具身大脑”解决方案,包括软件部分的具身大脑和硬件部分的高算力域控制器。


另一方面,星源智还可以作为总承包方,直接面向终端客户(如前置仓、药店)提供完整的机器人解决方案,在该方案中采用自家的“具身大脑”和外购的本体。


“只有做细分场景解决方案供应商,去深入客户,才能知道大脑要在场景里完成什么样的任务,才能知道真正能落地的大脑的需求是什么,才能引领具身智能的落地。”刘东表示。


星源智的通用大脑率先落地的场景,选择了闪电仓、前置仓、商超的拣选。这是刘东最熟悉,也是具身智能目前落地最快的场景之一。刘东告诉我们,预计明年,拣选机器人就可以落地真正“干活儿”,产生正向收入。


以下是《智能涌现》和刘东的对话,经整理编辑:


采用分层式架构,构建具身智能大脑


《智能涌现》:你之前在京东物流做智能驾驶,到创立星源智做具身智能,中间的历程是怎样的?


刘东:我从2022开始在京东负责L4级自动驾驶物流小车项目,当时的L4车队规模达到600多辆,在业内是规模领先的。但我发现,自动驾驶物流车解决了干线运输,却无法解决货物从车到楼的末端配送问题。


当时我们在京东内部开发过一个能上楼的机器人,也尝试过给机器狗加一个机械臂来实现配送,但无法全面解决末端配送问题。


直到2023年底,多模态大模型的进步让我看到了解决末端配送难题的可能性,即利用具备“大脑”的机器人完成从取货到上楼的全链路无人化,那个时候我感到很激动。当时就想用具身智能的方式,实现这个想法。


刚好智源研究院愿意拿出资源支持相关的科学研究,且允许团队基于科研成果进行商业孵化,我跟院长王仲远聊完后感觉特别契合,很快就达成了一致,2024年就开始做现在这个项目。


《智能涌现》:你入局具身智能,为什么选择了做通用具身大脑?


刘东:当时国内做具身机器人本体和VLA操作模型的创业公司已经很多了,但通用具身大脑仍然存在着一定的空白。


当前的具身智能模型,只能做一些很简短的小任务,无法理解空间环境和感知世界,也无法规划、处理复杂长程任务。但以上这些,由自动驾驶技术叠加多模态大模型的发展,有机会得以实现。


当时智源研究院也把做上层的大脑作为智源接下来研究的一个重要方向,所以我们最终决定,专注于提供核心的通用具身大脑,不跟本体厂商和VLA操作模型厂商做直接竞争。


具身大脑是更高层的东西,提供对世界的理解和对任务的宏观规划。规划完成后,我们就可以调用不同的VLA操作模型去完成执行,比如行走、抓取和叠衣服的VLA模型。


《智能涌现》:听上去你对具身智能模型做了一个分层,具身大脑在上层,VLA的操作在下层。


刘东:是的。这跟自动驾驶的方案是一样的,上面的模型负责对环境的感知和任务的规划,底下的一层模型负责对动作的执行。具身大脑负责感知和规划,小脑负责操作,VLA操作模型在我看来就是小脑。


《智能涌现》:星源智为什么会选择分层模型,而不是统一端到端?


刘东:当前具身智能行业有一个无解的问题,目前都没有看到一个低成本获取真机数据的方式。没有足够多的真机数据,纯端到端模型无法训练出能处理复杂、长程任务的泛化能力。这条路就走不通。


VLA模型无法实现一个长程任务。举例来说,你让机器人训练一个桌面的抓放,把一瓶水从桌子上的A点移动到B点,现有的VLA可以做到;但如果你让机器人从门口过来,把一瓶水从桌子上拿到茶几上,机器人就做不到,因为这类数据VLA模型没采过。


分层式不是最理想的方案,但是一种基于现状的最优解。通过将任务分层,可以解耦对海量真机数据的依赖,让机器人“先跑起来”干活,在干活中自主积累数据,为未来训练终极的端到端模型奠定基础。虽然跑的过程中,两个模型的衔接导致看起来中间会有一点点信息的损失,但不影响整体执行的效果。


一个低成本获取数据的方案,才是实现端到端的基础。在这之前,所有的端到端都免谈。就类似于特斯拉当年的方案,一开始也并不是端到端,慢慢积累了足够多的数据之后,才能训练出一个端到端模型。


《智能涌现》:像抓取、叠衣服之类的VLA操作模型,星源智会做吗?


刘东:我们在VLA操作层面重点自研最通用、需求最大的“抓取(Pick & Place)”和导航技能,其他VLA操作技能我们也有在做一些探索和研究。星源智总体是一个偏大脑的公司,但也有一定的小脑操作能力。


做“具身智能领域的华为”:Tier 1供应商+细分场景解决方案供应商


《智能涌现》:也有观点认为,企业不做本体,也就不知道什么是好的大脑。大脑可以做好跨本体适配吗?


刘东:大脑的跨本体适配不存在任何卡点。具身大脑不涉及到执行层面,训练主要依靠互联网数据,跨本体很简单。


小脑训练涉及到执行,要依靠数采平台的真机数据。数采数据和机械本体、关节电机紧密相关。一旦跨平台,各种关节的长度不一样,就导致执行位移不一样,电流大小也不一样,所以小脑的跨本体适配很难。


《智能涌现》:做好大脑的难点在什么地方?


刘东:主要有三点。第一点是实现李飞飞所说的空间智能,要基于落地场景,做品类的细分,让空间智能的识别颗粒度更细。


以便利店场景来说,普通的多模态模型会把怡宝和农夫山泉都识别为瓶装水,把500毫升和350毫升的瓶装水识别为一样的,无法辨别两者的区别。这就需要我们去搜集大量的互联网数据,训练我们的大脑,把识别做到足够细的颗粒度。


第二个难点在模型层的任务规划。在对空间进行识别之后,大脑需要对任务进行拆解。能否拆解好,取决于大脑对整个空间的理解,和对机器人本体执行技能的理解。


第三个难点在于让VLM的大脑能够识别3D的场景图。传统的VLM只能识别2D的图片,所以从3D到2D或者文本之间涉及到一个转化。


《智能涌现》:从商业化闭环上来说,如果只做大脑不做本体,未来会不会很难单独把大脑卖出去?


刘东:我认为具身智能未来发展会和自动驾驶的发展历程很像。会有一部分公司既做本体也做算法,有一部分公司专注造车,会从第三方购买自动驾驶方案,这两种情况都会有。


单纯做自动驾驶算法的公司,如Momenta、MINIEYE,也有不错的发展空间。具身大脑公司也是一样的道理。星源智可以把具身大脑卖给机器人本体企业,相当于Tier 1供应商。


另外,星源智也会作为细分场景解决方案供应商,直接面向终端客户提供完整的机器人解决方案。这时候星源智可以用自己的具身智能模型和控制器,用第三方的本体,大家各司其职。


《智能涌现》:不过现在不造车的自动驾驶公司,确实也活得有点难。


刘东:它的艰难在于不断地被OEM所压榨,因为它没有亲自下场去卖车,不直面最终客户。这也是为什么星源智没有选择做一个单纯的Tier 1供应商。


星源智选择的是,50%的业务做Tier 1供应商,另外50%提供整体解决方案。


只有做,去深入客户,才能知道大脑要在场景里完成什么样的任务,才能知道真正能落地的大脑的需求是什么,才能引领具身智能的落地。


类似于华为,跟国内大部分车企都有合作,但它自己不造车,只提供解决方案,同时它也亲自下场卖车。所以星源智把自身定义为“具身智能领域的华为”。


《智能涌现》:在一笔大的解决方案供应商订单里,星源智能分到多少比例的收入?


刘东:主要看实施的机器人价格多少。


在中国你纯卖软件卖不上价。我们会把具身大脑和高算力域控制器打包出售,总体是软硬件一体的交付模式。目前这套解决方案售价是5万元左右一套。如果一台机器人售价10万,那星源智能分到的比例可能接近一半。


域控制器相当于英伟达的Thor平台,在各类汽车品牌上都能用。现在的机器人本体公司,并没有在本体上安装高算力平台,因为本体上没有跑高参数的大模型,只是跑了一个本体的运控算法,对算力要求很低。


但接下来,机器人要真正干活,做到自主化,必须要配备高算力平台,才能让具身大脑在上面跑起来。


以拣选机器人形态,率先产业化落地


《智能涌现》:你前面提到,分层式架构可以让机器人先落地干活,在干活中积累数据。最快能落地的是什么场景?


刘东:我们现在重点在做的是商超或者药店的拣选机器人。它可以闪电仓、前置仓或者药店里面实现无人值守。这块是我们认为具身智能目前落地最快的一个场景,也是各家都在布局的场景。


尤其对于物流仓库来说,拣选是物流行业中人力最密集的环节之一,是明确的刚需。目前国内物流行业从业人员有三千多万,有三分之二是在做各种分拣和搬运。尤其是在夜间订单密度较小的时候,用机器人代替人,投入产出账清晰,客户接受度高。


《智能涌现》:让机器人落地干活儿,去做一些商业化动作的时候,背后的账怎么算?


刘东:这个账其实很好算,只要能给客户替代掉一个夜班值守的人员,比员工工资低,场景方就会买单。


我们目前设计的方案,已经实际在谈了。首先是把拣选机器人价格控制在10万元以下,融资租赁公司贴息之后,机器人寿命是5年,相当于每年2万块钱的使用成本,则每个月的成本就不到2000元。花2000元租一个机器人解决夜间值守的问题,很划算了,客户还是能接受的。


所以现在我们在做的是,确保机器人抓取不同物品的成功率,能真正地在店里面干活。


《智能涌现》:要确保机器人在商超场景抓取不同物品的成功率,卡点在哪里?


刘东:两方面吧,一是具身大脑的识别能力还不够。像上面说的,我们的VLM对商超物品的识别能力,还没有做到足够细的颗粒度。现在我们正在抓紧收集所有的商超品类,去做一个细颗粒度的识别。


二是机器人的抓取和拣选能力不足。一个大型商超的SKU差不多有1万个,真正能抓得好的不到2000个。


商超还有一个大问题是货品重量不统一,不同重量的货品对于机器人本体的要求也不一样,不可能一种本体就能解决掉。大家之所以优先选择药店场景落地,是因为药品外形以小方药盒为主,容易抓取。


但我们认为,差不多明年拣选这件事情就可以落地了,一些基于仓内分拣或者药店分拣的工作,机器人就能部署下去,真正能把活儿干起来。


《智能涌现》:除了拣选机器人落地,还有哪些场景可以产生正向收入?


刘东:第一类是拣选机器人,差不多明年就可以落地;


第二类是类自动驾驶和导航导购场景,比拣选机器人技术难度低一些。基于我们对3D世界的感知能力,这些导览导购、巡检类的类自动驾驶方案,可以用到一些具体的、很现实的场景上去。只需要对原有技术做一些工程化,就可以快速赋能到这个产品上去。这是一个好的节点,只要开始做,就能出现营收。


第三是像智元机器人这类客户,它已经明确说今年要出4000到6000台货了,星源智作为它的具身大脑和控制器供应商,会有切实的收入。


星源智的账能算得清楚,有清晰的营收增长路径,有清晰的落地场景,也有清晰的可上市的节点。


《智能涌现》:和一些同类型的创业公司相比,星源智好像特别注重商业化落地这件事。


刘东:具身智能跟自动驾驶很类似,如果一上来就干L4的话,整个产品是落不了地的,你有可能走不到能成功上市或者能活下来的那天,钱就提前烧光了。


2024年开始具身智能创业的时候,我就意识到了,能够落地其实是考验公司能否存活下来的最重要的一个衡量指标。当时我们就在寻找有哪些场景用目前的具身技术能够快速落地,产生一些正向收入。找到场景,我才能把公司真正run起来。否则的话,即便融再多的钱也是撑不到最后的。


文章来自于“智能涌现”,作者“王方玉”。

AITNT-国内领先的一站式人工智能新闻资讯网站