Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷
9106点击    2026-06-08 09:48

Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷


导语


2026 年 6 月的科罗拉多州丹佛市,全球计算机视觉与模式识别领域的顶级学术盛会 CVPR 正在召开,最前沿的视觉模型、机器人技术、下一代智能系统全都在同一个舞台上被反复讨论和辩证。


过去一年,具身智能的热度被推向新的高点。人形机器人越来越多,演示越来越炫酷,从运动控制到长程任务规划,从 VLA 模型到世界模型,几乎每一家公司都在展示自己对于“通用机器人”的理解。


但在热闹之外,一个更现实的问题始终萦绕在行业上空:机器人距离真正进入真实世界,还有哪些关键的卡点有待突破?


因为相比精心设计的 Demo,真实世界充满了随机性。陌生物体、复杂背景、光照变化、环境干扰,任何一个变量都可能让机器人失误。某种意义上,机器人是否具备足够的泛化能力和通用操作能力,已经成为衡量这一轮具身智能技术成熟度最直接的标准。


带着这样的观察,我们在 CVPR 现场注意到了一家来自中国的公司——苏度科技。


Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷


大多数机器人的 Demo,需要限定场景、固定物体、精心布光,甚至提前录好轨迹。苏度科技的展台没有炫酷的大屏,没有精心编排的演示脚本,甚至没有遥控、没有隔离带。只有一台机器人,和一群排队等着刁难它的专业研究员。大家一边看机械臂操作,一边自己上手试想验证一下模型能力,他们的机器人就是在这样在喧闹且背景干扰极强的现场一遍又一遍地面对此前从未见过的物体,完成稳定的抓取与放置。


Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷

视频中,一位教授在现场让机器人做抓取小颗粒药丸等极限测试


这些动作看似简单却对很多机器人而且充满挑战性——一个名牌、一只形态不规则的袋子、一系列随机摆放的陌生物体,被不断放到机器人面前。没有预设脚本,也看不出明显的针对性训练痕迹。但 R1 依然能够稳定完成抓取任务。现场一位长期关注具身智能的研究者告诉我们:这些东西大概率都不在训练集里。单从抓放这个任务来看,我觉得目前几乎没有多少模型能做到这个水平。


这位研究者告诉我们,苏度科技能力展现出了超强的泛化性,“当很多机器人公司仍在努力提升Demo视频的质量时,苏度科技在现场直接展示出的任意抓放能力,对背景干扰、物体变化以及场景随机性的适应能力都显得格外突出。”


Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷

视频中,一位研究员正在对机器人做干扰测试


技术路线背后,也有着鲜明的团队烙印。作为机器人仿真领域最具代表性的团队之一,苏度科技的技术体系延续自 SaPien 和 ManiSkill 等长期积累的仿真平台。从现场表现来看,其展示的能力很大程度上建立在大规模仿真训练之上,而非依赖海量真人遥操作数据。“现在很多做端到端模型的公司,如果直接在现场随机测试,失误率其实还是会比较高。而他们这种基于仿真训练出来的抓放能力,对未知场景的适应性很强”。前述研究员谈到。


与此同时,R1 的另一处细节也引起了不少业内人士关注——它全身选择了非常简单的视觉硬件方案。双臂共六个腕部摄像头,加上头部、胸部双目视觉系统,整机拥有10个摄像头,这样简单的硬件配置反而更加考验模型的智能能力。


Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷

视频中,一位研究员随机给了一支笔让机器人抓取


当越来越多公司开始追求更复杂的Demo行为时,苏度科技选择了一条不同的路径:先把底层技能的强泛化能力、通用这件事做到极致。而这背后所折射出的,或许不仅是一家公司的技术选择,也关乎具身智能下一阶段发展的另一种可能性。此次在 CVPR 2026 现场,我们对话了苏度科技 CEO 韩铮和首席战略官张校珩,深入了解了他们的技术布局思考以及未来发展规划。


本期嘉宾介绍:


韩铮,苏度科技联合创始人兼 CEO,毕业于北航,之后进入微软亚洲研究院,长期从事操作系统相关研发工作。此后,韩铮连续参与并主导多次创业,在 AI 和硬件产品领域积累了从 0 到 1 产品定义、工程落地和规模化商业化的经验,也曾带领团队推进全球化业务拓展及并购退出。


张校珩,苏度科技首席战略官,曾任职于蓝驰创投,是苏度早期投资人之一,也曾参与投资多个具身智能领域的新贵公司。2025 年 12 月,张校珩加入苏度,开始从公司内部推动战略、融资、产业合作与国际化等工作。在加入蓝驰之前,他曾在 ABB 和华为工作。


以下是本次访谈实录,经Z Potentials编辑修改~


  • 具身智能需要的世界模型,不应该只是预测 next pixel 或 next token,而应该是预测 next physical dynamics。


  • 很多人会把注意力放在算法上,但实际上要实现真正可用的机器人系统,需要很多环节同时成立。包括数据、训练环境、仿真器算法、机器人本体设计、模型架构、Sim2Real 方法,以及真机后训练。这些模块必须形成一个完整闭环,缺少任何一个环节都很难实现真正的泛化能力。


  • 我们认为机器人产业最终会形成分层生态。底层负责通用操作能力。上层负责 Reasoning 和应用。因此我们更希望和做模型、做应用的团队形成合作关系。特别是那些已经在 VLM、Agent 或行业应用领域积累较深能力的团队。


  • 很难定义一个真正统一的机器人 Benchmark。原因其实和自动驾驶很像。自动驾驶行业至今也没有一个能够完全代表真实驾驶能力的测试集。机器人同样如此。不同公司使用不同机器人本体;不同环境;不同物体;不同测试场景;这些差异都会导致结果出现巨大变化。


  • Low-Level Manipulation Model 和机器人硬件,未来可能只需要少数几家公司来提供。而更多机器人研究和应用创新,会集中在上层。


  • 我们除了底层的技能模型,也开始训练自己的世界模型。两块加起来,今年会扩充到大概万卡的水平。这在国内应该还是比较大的量级,但其实对我们来说仍然不够。


  • 短期内可能会有一些泡沫,也会有一些过高的期待,但如果单纯从场景角度来看,需求真的非常丰富。现在缺的其实不是真实场景,而是足够好的技术和务实的团队去解决这些问题。


  • 我们不会垂直进入某个行业,做成一家行业方案公司。我们更关注的是:这些行业背后共同需要哪些 skill?共同需要哪些能力?我们会把这些能力抽象出来,把模型做成通用能力。


  • 真正让苹果走进千家万户的,不是操作系统本身,而是开发者生态,是 WWDC,是无数开发者开发出来的 App。这些 App 最终进入各种具体场景,解决各种具体问题。我们希望机器人未来也能这样。所以在我们的体系里,会有很多开发者基于底层模型去开发各种 Agents。


01 重新设计具身智能模型架构:世界模型应预测 Next Skill,而非 Next Token


ZP:很多人看了你们现场演示,机器人的泛化能力表现不错,比较好奇想你们模型架构怎么思考设计的?


张校珩:虽然我们没有透露具体的模型架构,但我们的模型和市面上大部分模型不太一样。它的鲁棒性很强,成功率很高,抗干扰能力也很强。背后的原因,是我们采用了一些不太一样的架构。


这个架构有两个作用:一方面,它可以让我们基于前面提到的两种数据融合,快速产生新的 skill;另一方面,随着 skill 不断增加,在一个 unified model 里面,它会逐渐涌现出一些新的 skill。也就是说,整个 skill 增长的边际成本会越来越低。这也是我们经常在大模型里看到的 scaling law 会带来的东西。所以模型团队的要求也非常高。他们要把架构设计好,让仿真数据和真机数据都能被模型充分吃进去。除此之外,我们也在做世界模型。


不过我们公司内部其实不太愿意用世界模型这个词,因为现在这个词被炒得比较多。我们自己的理解是,世界模型本质上就是一个预测功能。现在市面上很多公司都可以说自己在做世界模型。但大部分世界模型预测的是 next pixel,比如视频模型;或者 next token,比如大语言模型。甚至还有各种各样别的预测方式。但我们认为,具身智能需要的世界模型,不应该只是预测next pixel或next token,而应该是预测next skill,或者next physics,或者说physical dynamics。


这件事情非常难。因为你想预测什么,首先你就要预训练什么。而过去这类 physical dynamics 的数据是非常少的,所以我们要尽可能让模型把已有的物理动态数据吃透。这就是我们版本的世界模型为什么会非常难,但也是为什么我们的世界模型会是非常不一样的。


ZP:你们的模型层选择分层架构,为什么不是传统 VLA 路线?


韩铮:核心原因在于泛化能力。传统 VLA 方法往往针对特定场景或者特定物体收集数据训练,因此在原始场景下效果不错,但一旦环境变化或者物体变化,就很容易失效。而我们的目标,是让底层能力对物体和环境实现强泛化。只有底层能力具备足够强的泛化能力,整个系统才有可能真正实现分层。如果底层模型不能泛化,那么上层就无法稳定调用底层能力,也就谈不上分层架构。所以过去很多 VLA 架构更多停留在研究和展示阶段,而很难真正形成可扩展的系统。


我们首先解决的是底层泛化问题。过去 VLA 往往是场景驱动或者数据驱动,而我们的重点是让底层模型能够适应开放环境和开放物体。当底层能够稳定处理各种不同物体和环境之后,上层的 Reasoning 模型就只需要负责决策,而不需要关心具体操作细节。这样整个系统才具备真正工程化落地的可能。


ZP:你们对于“通用”的定义是什么?


韩铮:我们定义的 Generalized Manipulation Skill,其实是由很多底层技能组成的。一般来说,我们关注的是几秒钟之内能够完成的短时操作技能,但要求对物体和环境具备很强的泛化能力。


从机器人操作的角度看,人类常用的 Manipulation Skill 其实没有那么多。在我们定义的 Skill Set 里面,大概也就是几十种基础技能。比如 Pick、Place。


当然,Place 再往下拆分,还会有很多子类。比如带一维约束的放置动作,有限位孔、限位柱,或者插孔这类操作,本质上都属于 Place 技能。除此之外,还有开合页、操作铰链结构等技能。我们的目标是把人类日常操作中最常见的底层技能覆盖掉。


ZP:抓取为什么成为当前机器人领域面对通用问题是需要最先解决的问题?


韩铮:因为抓取几乎是所有 Manipulation 的基础。现在大家做机器人操作,基本都会先尝试解决抓取问题。抓取做好之后,才会逐步扩展到更复杂的操作技能。


Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷

视频里,小朋友正在指挥苏度科技的机器人收拾药丸,也体现了机器人足够易用,甚至一个孩子也能上手


ZP:在当前机器人产业生态里,你们如何定义自己的位置?


韩铮:我觉得最大的区别还是在于分层架构。过去很多 VLA 路线公司,更多是围绕模仿学习展开。开放生态的核心,是开放模型,让其他团队继续做二次优化。而我们的逻辑不太一样。我们认为机器人产业最终会形成分层生态。底层负责通用操作能力。上层负责 Reasoning 和应用。因此我们更希望和做模型、做应用的团队形成合作关系。特别是那些已经在 VLM、Agent 或行业应用领域积累较深能力的团队。当然,对于其他同样做机器人基础模型的公司,大家也会存在一定竞争。所以更准确地说,是合作与竞争同时存在。


ZP:最近公司在哪些方面实现了技术突破?


韩铮:我们自己认为,真正的突破发生在去年11月到12月。当时我们基本确认了一件事:基于 Sim2Real 的强泛化能力,以及分层架构,是可以实现的。但这里最大的挑战其实不是某一个模型,而是整个系统工程。很多人会把注意力放在算法上,但实际上要实现真正可用的机器人系统,需要很多环节同时成立。包括数据、训练环境、仿真器算法、机器人本体设计、模型架构、Sim2Real 方法,以及真机后训练。这些模块必须形成一个完整闭环,缺少任何一个环节都很难实现真正的泛化能力。所以我们认为,核心突破其实是整个系统架构,而不仅仅是单一模型。


02 仿真数据做预训练,真机数据做配合


ZP:除了架构之外,在数据层面做了哪些工作?


韩铮:我们的一个核心观点是,机器人一定需要大量仿真数据。因为如果想复现真实世界中各种各样的环境、物体和任务,仅依靠真机数据几乎是不可能完成的。所以在预训练阶段,我们会大量使用 Simulation Data 。当然,仿真数据本身也有很多维度。包括物体、环境、任务类型等,都需要做大量的数据准备和处理工作。实际上,数据训练、训练环境以及仿真器算法,本身就是整个系统里非常重要的一部分。


ZP:你们怎么看待现在具身争议比较多的数据分歧,你们的选择是什么?


张校珩:数据这边不只是仿真数据。我们这家公司最大的特点,其实是全栈。我们是用 simulation data 来做 pretraining。因为仿真数据的多样性非常高,量也非常大。但这里面最难的问题是 sim-to-real gap。仿真到真实世界之间的差距,是一个非常难解决的问题。所以我们需要世界上最顶尖的人才来解决它。


很多团队会说 simulation 很难做。其实它难,是因为对人才的要求非常高。做 simulation 本身就需要很强的物理底子和数学底子。如果这个 simulation 是用在机器人上,你还必须非常了解机器人本身的系统。所以这就像一个漏斗,真正满足这些条件的人才非常少。我们希望把全世界这样的人才聚集过来。


同时,我们也有真机数据。真机数据更多是和 simulation 做配合:一方面用来修正仿真数据,另一方面捕捉更多长程任务里的行为数据。


这里面还有一个难点,就是仿真数据和真机数据如何融合。真机数据的采集本身,也需要理解仿真数据是怎么运行的。这样你在采集过程中,才能尽量和仿真数据对齐,做 align。只有这样,融合出来的效果才会更好。


ZP:仿真数据和真机数据的比例大概是多少?


韩铮:这个要看具体任务。比如官网和这次 Demo 展示的一些任务,在预训练阶段基本是 100% 使用仿真数据,没有使用真机数据。等模型部署到真实机器人上之后,可能只需要尝试一两次,就能够完成部署。当然,也有一些技能会在预训练阶段加入少量真机数据作为参考,但总体来说,我们更依赖高质量的仿真数据。


ZP:你们怎么思考开源?


韩铮:这个问题其实也是我们认知变化最大的地方之一。在创办公司之前,我们做了很多开源工作,包括开源仿真器、算法和数据集。但后来我们发现,如果要训练真正具备强泛化能力的底层 Manipulation Foundation Model,其实并不是每个实验室都能参与。因为这背后需要大量数据、算力和硬件投入。


所以现在我们的观点是:Low-Level Manipulation Model 和机器人硬件,未来可能只需要少数几家公司来提供。而更多机器人研究和应用创新,会集中在上层。比如:VLM;Reasoning Model; Agent; 行业应用。这些领域依然有非常大的创新空间。


当然,我们仍然在维护开源项目和开源社区,希望大家能够理解整个系统是如何工作的,也能够通过 Simulator 体验完整流程。但如果要实现真正的分层架构,仅靠一个不具备强泛化能力的底层模型,其实是做不到的。


ZP:怎么看待机器人 Benchmark 的问题?


韩铮:这是一个非常有意思的话题。我个人觉得,很难定义一个真正统一的机器人 Benchmark。原因其实和自动驾驶很像。自动驾驶行业至今也没有一个能够完全代表真实驾驶能力的测试集。机器人同样如此。不同公司使用不同机器人本体;不同环境;不同物体;不同测试场景;这些差异都会导致结果出现巨大变化。


即使是在 Simulator 里,大家对测试环境的理解和使用方式也不完全一样。而机器人最终还是要部署到真实世界。所以我认为未来最重要的评测标准,不会是固定测试集上的分数。真正重要的是泛化能力。例如:面对随机环境;面对随机物体;在此前从未见过的任务中;Few-shot 甚至 Zero-shot 条件下的成功率。这些指标更接近机器人真实能力。很像自动驾驶行业最终关注的是接管率,而不是某一个封闭测试集上的成绩。因此未来机器人评测,更应该关注真实世界中的泛化成功率,而不是特定 Benchmark 上的峰值表现。这也是我们一直坚持的方向。


03 算力与人才的双重押注


ZP:公司完成了新一轮融资的钱,接下来主要在哪些部分投入?


张校珩:我们主要还是投在两件事情上。第一是算力因为我们在国内应该算是少数真正从头在做预训练模型的公司,所以用卡量非常大。这一轮融资的大部分资金,还是会投入到算力当中。


第二是人才。我们会持续招募大脑、硬件和商业团队里最顶尖的人才,把他们聚到一起。其实你看 OpenAI 早期,它也是把一帮最聪明的人聚到一起,才一步一步做到今天。我们现在也是类似的思路。所以整体来看,算力和人才,是我们目前最大的两个投入方向。


ZP:算力层面你们现在投入多大?


张校珩:我们 2025 年第一次回国的时候,起始的用卡量就超过了国内所有的公司,包括我们一个很重要的股东阿里巴巴,他们当时之所以非常重点地投我们,就是因为发现我们的用卡需求确实非常大。而且他们的 technical team 跟我们合作之后,也确认了一件事:我们不只是拿了很多卡,而是真的在满负荷跑。这也让他们确认,我们确实是在用预训练模型的方式做这件事情。


我们当时也很诧异,因为对于一家真正做预训练模型的公司来说,用卡量一定是最显性、最重要的指标之一。但后来我们也理解了,如果只是做 post-training,本质上更多是在解决数据或者后训练的问题,用卡量的确不会这么大,所以大家说的也不多。


后来市场上也开始有很多公司讲自己的用卡量很大。这里面有一个变化,就是投资人也慢慢意识到,具身智能和过去的 VLM、LLM 不太一样,它需要重新 pretrain 一个新的模型。所以很多友商也开始 follow 这个 strategy。但实际情况是,有些公司可能只是先把卡拿到手里,并没有真正开始做预训练。


到今年,我们除了底层的技能模型,也开始训练自己的世界模型。两块加起来,今年会扩充到大概万卡的水平。这在国内应该还是比较大的量级,但其实对我们来说仍然不够。


ZP:目前团队配置如何?


张校珩:我们现在的人才结构,大概是五成放在大脑团队,三成放在硬件团队,两成补充商业团队。在大脑团队里面,数据和模型大概是一半一半。


数据方面,我们的路线是以仿真数据为主、真机数据为辅,所以在真机数据这部分,我们对人才的要求会更高。


模型层方面,我们需要的人才是既要定义具身的世界模型是怎么运行的,也要拆解以具身世界模型为核心建立起来的底层操作模型是怎么来的。这类人才非常重要,也非常难招,因为定义的工作是非常难的。


ZP:现在你们是国内和海外同时推进,还是先做国内?


张校珩:我们是同步推进的,但国内和海外的打法不太一样。在国内,除了开发者外,我们会更多直接面对终端客户。因为中国制造业场景足够丰富,各种需求都能接触到。需求越多,其实越容易找到里面共性的东西。


海外则不一样。美国当然也会有商业场景和生活场景,但这些更偏中长期机会。短期来看,制造业依然是最标准、需求最丰富、转化周期最快的场景。


不过美国有一个特别大的优势,就是开发者。这里有很多非常优秀的开发者、研究人员和大脑团队。他们从来不缺天赋,很多时候只是缺一个明确的方向。所以我们找到了一种比较有意思的模式。


在国内,我们接触终端客户,理解大量真实需求;然后把这些需求带到美国。同时,我们提供机器人平台,把机器人最累、最脏、最难的底层部分做好。开发者则基于我们的平台开发上层模型,把各种技能串联起来,形成针对具体场景的解决方案。


如果他们开发成功,这套能力就可以直接被终端客户购买。比如C公司在海外也有客户,物流行业在海外也有对应场景。


所以在美国,我们更多面对开发者;在中国,我们更多面对终端客户。这是我们的整体逻辑。


04 一家具身智能企业的商业化选择:不做方案公司,做机器人时代的苹果


ZP:你们怎么思考接下来公司的商业化节奏?


张校珩:我以前是投资人,现在自己出来做公司。我觉得做具身智能之后最大的感受之一就是:这个行业其实不缺场景,也不缺需求。我觉得这也是为什么投资人愿意给这么高估值的原因。因为大家都知道,这个行业长期来看一定不会小。


短期内可能会有一些泡沫,也会有一些过高的期待,但如果单纯从场景角度来看,需求真的非常丰富。现在缺的其实不是场景,而是足够好的技术去解决这些问题。


来到这家公司之后,我最大的感受就是需求特别多。无论是装配、分拣,还是各种工业场景任务;无论是商业场景还是生活场景,大家对于人力替代的需求都非常强。


尤其是那些重复性的、危险的、高精度的任务,或者无尘环境、高速作业,以及人为因素容易导致质量波动的工作,市场需求都非常大。所以从我们的角度来说,我们每天都在接触各种各样的客户需求。但这里面有一个特别重要的原则,就是一定要保持清醒。


现在大家都在讲大模型,但机器人模型到底应该做到多大、数据规模应该做到什么程度,其实行业还没有形成共识。如果今天冒然进入某一个具体场景,很容易出现过拟合的问题。模型一旦 overfit 到某个场景,再泛化到其他场景,难度就会大幅提高。


所以我们的思路是:一方面大量接触客户、理解需求;另一方面,更重要的是把这些需求背后的共性能力提取出来,把这些共性的能力做扎实、做鲁棒。只有这样,最后才能真正实现通用化。这也是我们和很多公司的最大区别。


你会发现我们似乎没有特别聚焦某一个具体场景,但那是因为我们从一开始就想做一个 General Purpose Robot。这是技术路线上的选择。


但从商业角度来说,我们同样需要验证闭环。我们也需要知道客户会不会认可我们的产品,会不会真正解决他们的问题。所以我们已经有了一些早期客户。比如锂电行业的头部客户;汽车电子领域的一些车厂客户;物流行业的一些客户。这些客户都会给我们带来真实的场景需求。


但我们的合作方式和很多公司不一样。我们不会垂直进入某个行业,做成一家行业方案公司。我们更关注的是:这些行业背后共同需要哪些 skill?共同需要哪些能力?我们会把这些能力抽象出来,把模型做成通用能力。然后让客户自己的研发团队,基于我们的机器人平台进行二次开发,最终完成交付。


这样做有两个好处。第一,可以保持模型的通用性。第二,可以让我们更像一家产品公司,而不是方案公司。因为很多公司其实都能把 revenue 做出来,但如果一直走方案路线,很难保证长期 profit。而我们相信,一家好的公司一定要有健康的利润结构。


所以总结来说:我们的客户很多,需求也很多,但我们筛选客户最底层的逻辑,就是找到其中最具有共性的部分。


ZP:所以你们会在每个行业挑一个代表性客户?


张校珩:对。在制造业,我们会选择像头部企业,因为它本身就代表着行业标准。它的需求足够标准化,我们更容易从中提取共性能力。


在汽车领域,我们会选择行业头部企业,比如蔚来、小米。这些也是我们的股东。在物流领域,我们会选择阿里巴巴、淘宝、天猫这样的客户,因为他们同样代表行业最典型的需求。


基本上我们的逻辑就是:每个行业选一个头部客户;从这些头部客户身上提取共性能力;最后沉淀到通用模型里。而这些客户目前已经开始为我们贡献收入。


ZP:所以某种程度上,你们更像一个机器人平台?有点类似 PaaS 平台。


张校珩:对。我觉得这个理解非常准确。很多公司是私有化部署逻辑,但我们的核心思路其实更接近平台化。


ZP:在目前规划中,公司什么时间会有规模化收入?


张校珩:我们认为会在今年下半年开始体现。2025 年对我们来说最重要的一件事,其实是跑通整个范式,包括:skill 应该怎么做;模型应该怎么做;数据应该怎么做。2025 年11月我们验证了R1模型,其实就是想告诉大家:我们已经找到了一套可行的方法。找到了一套 scalable 的方法。找到了一套我们认为正确的范式。接下来要做的,就是 scaling。而当 scaling 开始的时候,商业化也会同步展开。


从去年 11 月发布范式之后,我们又花了几个月时间,把各种 pipeline、自动化系统和周边基础设施全部搭建起来。到现在,我们认为整个机制已经基本建立完成。从今年 6 月开始到下半年,我们会进入商业推进阶段。目前我们已经规划了大约 13 个开发者中心,分布在中国、美国和欧洲。同时,我们与C公司以及其他终端客户的合作也已经开始落地。预计到今年年底,我们会看到更多机器人在客户场景中的部署。


不过这里有一个非常重要的 know-how。我们一直在思考:到底应该做客户价值最大的部分,还是做数据最敏感的部分?


最后我们的答案是:我们应该去做对客户价值最大、但对数据不敏感的部分。而客户那些相对简单、但数据极其敏感的部分,我们尽量不碰。比如工艺数据、工件数据、生产参数,这些对于客户来说往往是核心资产。这也是为什么我们后来没有选择以真机数据为核心的路线。很多人会觉得,真机路线最大的挑战是成本高、部署重。


但在我们看来,更大的问题其实是客户接受度。因为如果你走真机路线,无论是遥操作、动捕,还是 Ego-centric 数据采集,本质上都需要你的人进入客户现场,采集客户数据。在客户角度来看,这是很难接受的。尤其很多制造业客户,对数据安全的要求极高。


所以我们一直在想,有没有一种方式,在不接触客户核心工艺和敏感数据的前提下,也能完成交付。最终我们找到的答案就是平台模式。所以我们和C公司这样头部企业的合作,并不是我们直接把整个场景做下来。而是我们提供一个机器人平台。客户自己的团队,在平台上完成二次开发。他们可以把自己的工艺要求、节拍要求、动作顺序以及各种精度需求,以参数的形式输入系统,控制模型运行。这样既能保护客户的数据安全,也能保证我们的模型持续保持通用性。这其实是我们非常重要的一条商业路线。


ZP:但像 OpenAI、Anthropic 现在也有很多 FDE,会直接进入企业做部署。未来会不会也出现类似情况?


张校珩:我觉得本质上还是生态分层的问题。至于具体叫什么名字,其实没那么重要。重要的是,我们认为作为一家具身智能公司,首先要把底层平台做好。然后让别人基于这个平台做二次开发。这种生态分层的模式,我们认为是非常正确的。当然,从内部来看,我们 CEO 对这件事有一个特别形象的理解。他一直觉得,我们未来更像手机生态。当然机器人会比手机复杂得多。但逻辑其实是一样的。我们希望机器人能够成为一个平台。这个平台有自己的硬件,有自己的操作系统。就像苹果一样。苹果最厉害的地方,并不只是硬件,也不只是操作系统。而是它把硬件和操作系统结合得非常好。我们其实也在做类似的事情。


但真正让苹果走进千家万户的,不是操作系统本身,而是开发者生态。是 WWDC。是无数开发者开发出来的 App。这些 App 最终进入各种具体场景,解决各种具体问题。我们希望机器人未来也能这样。所以在我们的体系里,会有很多开发者基于底层模型去开发各种 Agent。有些 Agent 面向工业场景;有些 Agent 面向商业场景;有些 Agent 面向家庭场景;还有一些可能面向完全新的场景。这些都有可能。所以从这个角度来说,你刚刚提到的模式,其实正是我们未来希望实现的模式。我们希望做的是机器人时代的基础平台。开发者基于这个平台创造各种能力。最终形成一个完整的生态。这也是我们长期想要实现的方向。


ZP:那对于开发者,你们会有哪些激励机制?


张校珩:开发者中心的激励机制大概会分三层。


第一层最简单,就是比赛。我们会举办各种开发者赛事,让大家基于我们的平台开发上层模型。表现优秀的人可以获得奖金。但这其实只是最基础的一层。


第二层是商业转化。刚才提到,我们会把国内真实客户的需求带到海外。开发者基于这些需求进行二次开发。如果他的方案真的解决了问题,那面对的就是直接的商业机会。比如未来在开发者中心,我们可能会部署部署锂电、汽车电子等制造场景。当然,具体的工艺标准、节拍要求、流程规范,还是由客户定义。开发者只需要在我们的机器人平台上解决方案问题。如果最后方案成立,那这套方案本身就可以被客户买走。所以很多开发者真正感兴趣的,并不是比赛奖金,而是自己的成果能够快速转化成真实商业价值。


第三层,则是创业支持。很多开发者未必想卖方案。他们可能开发出一个非常优秀的上层模型,可以应用在多个客户现场,希望把它做成一家创业公司。对于这种情况,我们也愿意支持。未来我们会联合场景方、客户以及生态伙伴成立一些生态基金,帮助这些开发者创业。因为他们成功,其实也是我们的成功。


这一点和英伟达的逻辑很像。我们希望做的是整个行业的基础平台。给开发者提供一个足够好的平台,让大家能够实现自己的愿景,也实现自己的商业目标。这才是我们真正想建立的生态。


05 通用能力打底,开发者生态破局


ZP:接下来公司的技术方向规划是什么?


韩铮:未来一到两个月内,我们会在上海展示更多操作技能。从整体规划来看,我们会提供一到两种不同机器人构型,同时在底层提供一系列基础 Manipulation Skills。在此基础上,开发者就可以专注于上层模型开发。例如做 VLM 的团队,可以直接基于这些底层能力开发机器人 Reasoning 模型;工业场景用户也可以按照标准操作流程,直接调用我们的能力进行部署。我们希望把机器人能力拆分成不同层次,让开发者能够在更高层进行创新。


ZP:如果底层能力已经解决了,上层还有哪些机会?


韩铮:其实还有非常多机会。现在我们的演示系统里,已经接入了 Gemini、千问以及其他一些主流多模态模型。如果大家未来来到我们在美国、欧洲和中国的开发中心,会看到这些模型已经能够在上层完成一定程度的 Reasoning,并调用底层 API 来执行任务。但大家也会很明显地发现,上层模型仍然有大量工作可以继续做。我们认为,未来机器人领域最大的创新空间之一,很可能就在上层 Reasoning。


ZP:上层模型大概会是什么样的形态?


韩铮:我们经常用自动驾驶来类比。自动驾驶系统里,当用户输入从 A 点到 B 点的导航需求时,路线规划通常是在云端完成的,而不是在车端本地完成。机器人未来其实也会类似。上层 Reasoning 不一定需要部署在端侧。开发者完全可以调用云端的大规模 VLM 服务来完成推理和决策。但当任务被分解成具体操作动作之后,底层执行必须在本地完成。因为机器人执行动作时,对实时性要求非常高。这点和自动驾驶是一样的,比如 FSD 在端侧执行时,模型参数量不可能无限扩大,因为推理速度必须足够快。机器人也是同样的逻辑。


ZP:未来云端 Reasoning 最大的技术挑战是什么?


韩铮:我觉得这会是整个多模态模型领域接下来重点探索的问题。过去大家做 Reasoning,大量依赖语言推理。比如一个经典问题:把大象装进冰箱分几步?很多模型都能回答三步。但机器人面对的是现实世界。它需要先观察环境,再做推理。比如大象到底能不能放进冰箱?冰箱有多大?开口尺寸是多少?空间是否足够?这些问题已经不再是纯语言推理,而是对真实物理世界的理解。所以未来的 VLM 不仅要理解语言,还要理解环境、空间、几何关系以及物理约束。这也是为什么大家现在越来越多地讨论 Physical AI。


不过需要说明的是,底层和上层关注的问题并不完全一样。上层更多关注预测和决策。而底层则更关注具体操作。例如物体几何结构、材质特征、接触方式以及运动过程等更精细的物理理解,通常会更多发生在底层。


ZP:目前和高校或研究机构有哪些合作?


韩铮:我们的模式本身就是开放合作。合作对象包括高校、研究机构、大厂以及创业团队。接下来,我们会在湾区、波士顿、苏黎世以及国内多个城市建设开发中心。开发中心会配备工程师,为研究人员和开发者提供支持。


目前主要有两种合作方式。第一种是申请进入开发中心。研究团队可以直接使用我们的机器人平台,探索上层模型或者 Agent 开发。


第二种是未来会开放在线开发工具。这套工具可以理解为机器人领域的开发平台。比如你想验证一个机器人任务是否可行,可以先在 Simulator 里完成验证。以一个极端例子来说,如果你想验证大象能不能放进冰箱,那么完全可以先在仿真环境里测试。如果仿真结果已经证明不可行,就没有必要再让真机尝试。这样能够显著降低开发成本。


ZP:接下来对公司发展最重要的两件事是什么?


张校珩:如果让我总结的话,我觉得有两个点特别重要。第一,我们始终坚持通用路线。我们会接触很多客户、很多场景,但最终关注的永远是这些场景背后的共性能力。因为只有把共性能力做好,机器人才能真正实现泛化。


第二,我们希望建立开发者生态。我们不想成为一家单纯做项目交付的公司。我们更希望成为一个平台。客户、开发者、机器人和场景方,都能够在这个平台上创造价值。只有这样,整个行业才能真正形成正向循环。


文章来自于"Z Potentials",作者 "Z Potentials"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md