关于人形机器人是否有用的争论还在继续,比如,工业场景是否需要人形?
「如果工业场景有一个具备感知、认知、执行的能力的智能体,人形并不一定是工业现场中的最优解。」
「工业现场最初是为人类设计的,所以人形机器人可以第一时间进入到现场,但今天,工业现场的生产并不一定要为人设计。」
这是微亿智造张志琦的观点,他们刚刚推出了一款具身智能工业机器人「创 TRON」,实现了 LLM 在机器人领域的技术落地和商业化。
大模型在工业场景,相比消费端,在数据上有更多的优势,「(大模型)集成到工业领域后,我们能够在每个场景中积累数据,并通过机器人载体有效执行和落地,沉淀有价值的数据。」
最近,在 Founder Park 直播间,Founder Park COO 艾之与微亿智造董事长&CEO 张志琦、捷勃特机器人副总裁&CTO 贺岩,一起聊了聊新产品「创 TRON」诞生的幕后,以及工业机器人在今天商业落地的更多可能性。
一些有趣的点:
艾之:这不是你们合作的第一款机械臂产品了,能不能请您先介绍一下,相比之前的产品,「创TRON」从功能到任务完成上,有哪些突破?
张志琦:「创TRON」这个产品是微亿智造和捷勃特联合推出的第一款具身智能工业机器人。为什么称它为具身智能工业机器人,与传统的机械臂有什么区别?这个机器人在使用的过程中,真正实现了从传统的人工编程或手动拖动方式的示教过程,转变为自动落地执行。这跟传统机器人在传统的机械臂中间加上视觉能力的方式有很大差别。
可以通过视频看到,这款机器人就像一个学徒。一般在工业现场,师傅带徒弟时,师傅演示一遍,徒弟在旁边看一遍,然后自己操作一遍,如果操作正确,徒弟就算合格上岗了。我们的「创TRON」也是类似的模式,师傅做一遍,机器人通过视觉系统「看」一遍,然后在仿真系统里学习,再在真实物理环境中操作一遍,所有这些事情成功之后,最后把所有指令下达给工业机器人,工业机器人就能用更高效、更精准的方式完成所有工作。
这就是「创TRON」与传统机器人之间的最大差异。过去我们看到的是冷冰冰的自动化设备,而今天的「创TRON」是一个活生生的、可以和人进行交互的智能化产品。
同时,它在执行过程中如果遇到任何干扰,比如运行线路被阻挡、抓取过程中受到干扰,东西掉了、被拿走等等,它都可以自己感知、修正,继续执行任务。这是传统自动化设备无法实现的,而具身智能的工业机器人有能力处理这类任务。
艾之:过去的自动化机械臂生产线上是不存在这样的任务学习环节的。那传统的自动化机械臂在生产线上,如何把一个任务分解为不同机械臂需要协作和执行的指令?
贺岩:传统工业机器人要在线上工作的话,实际上并不是简单的把人替换成机器人。这是一个很复杂的过程。
首先,原始材料要规整地排列在固定的位置上,然后要有工程师为机器人编程,这是需要专业知识的,只有专业的机器人工程师才能编写程序,告诉机器人去哪个点抓取物品,在哪个点安装。每一步都要程序化地编好。
这个过程要求两点:一是上料必须规整,二是编程初始化。这是传统工业机器人替代工人的过程,非常复杂。而「创 TRON」就像一个学徒,能在师傅示范下学习并完成任务,这是一个革命性的突破。
艾之:大家挺关心机器人在实际应用中的稳定性,机器人在跟真实的人交互的时候,表现的稳定性如何?
贺岩:实话实说,我们确实有失败的案例,但我认为,失败的案例在整个过程中给我们提供了很多学习机会。同时,我觉得「示教」这个切入点选得非常好。
正如志琦总提到的,大多数工业场景对可靠性、容错性要求很高,而「示教」这件事本身是有一定容错性的。比如我示范一次,你做错了,我告诉你错了,再做一遍,直到你做对为止。这个过程就像 ChatGPT 一样,你回答错了,我告诉你错了,再来一次,直到你答对为止。在「示教」环节,目前这个状态下,它是可用的,并且能创造很大的价值。
艾之:对,在一些对容错率要求相对宽松的场景里,它已经达到了实际可用的状态。
张志琦:我们在现场演示时分为两部分,一部分是学习区,另一部分是工厂的执行区。坦白说,在学习过程中它确实有时会出错。因为背后的操作流程是机器人先在仿真环境中学习,再在实际环境中执行。就像人类员工,能力稍弱的徒弟第一次不一定能学会,没学会,师傅就得再教一遍。而在每次教学的过程中,系统其实会通过这些失败的样本,进一步将数据回流到模型中,进行进一步提升。而在执行区,也就是工厂那一侧,成功率非常高,因为那部分是在高效环境下执行的。
所以,「创TRON」这个产品本质上就是对标人类员工的。人有时会犯错,它也会,但我们有机制来纠正和提升。同样的,我们的机器人在执行时也有监督机制,类似于自动驾驶的 L1-L5 级别的过渡,今天我们的产品大概是 L2、L3 级别。它需要人类监督,在执行时,发现问题,及时纠正,而这些纠正会帮助模型在下一次的能力提升中表现得更好。这是我们觉得比较有意思的一点。
当然,在实际现场我们也遇到过一些意外情况。比如这次国际工业博览会上,很多媒体对设备感兴趣,拿着闪光灯猛拍,结果我们突然发现,一个机器人的「眼睛」暂时失明了,因为闪光灯太强烈了。这其实是个很好的 Badcase。接下来我们就要考虑怎样让模型更好地处理这种干扰,快速修正和恢复,确保在学习过程中能更有效地执行。
所以,我们认为,AI 和具身智能类产品最不怕失败,只有在这种模式下,才能有效提升模型能力。不过,我们需要解决的核心问题是,如何在工业现场中将这些失败变为可控因素,从而让产品能够真正落地和执行。如果产品一直不稳定,坦白讲,像人类员工一样,如果他一直不稳定,早就被解雇了。如果我们的产品也不稳定,肯定也没人用。
因此,在示教的过程中,我们允许一定程度的失败,人类在这个过程中会不断对它进行矫正,一旦模型稳定下来,它就能快速落地执行,且效率极高。以前,我们可能需要编程来让设备理解人的指令,要花费几天甚至几周时间。今天通过示教和修正,机械设备可以在几个小时内快速实现。
艾之:作为一直深耕工业领域的人,具身智能概念火起来之后,给这个行业带来哪些变化?
贺岩:具身智能这个概念兴起之后,尤其是马斯克公布了他的人形机器人计划,让人们对未来有了更高的期望,比如我可以做百万台甚至上千万台低成本的机器人。我切身的感觉是,可选的供应商变得越来越多了,因为越来越多供应商对这件事充满了希望,会在之前比较小众的零部件上投入更多资源。
对于我们来说,可以想象一下,如果人形机器人售价是 2 万美金,那么单个手臂的成本可能会低至 2,000 美金,这样的话,在很多场合,我们可能不需要整个人形机器人,只需要一个手臂就能完成很多任务,怎么算账都算得过来。
张志琦:人形机器人火了之后,让工业场景也变得更热闹了。大家看到打工人突然多了一个「钢铁之身」,能够帮助我们解放人力。
传统的流水线设计,把人当机器一样去「使用」。通过流程和 SOP 标准化,去除个体差异。当这种模式稳定后,再逐步用机械设备替代人力。但现在突然出现了一个「钢铁之身」,这个机器人具备人类的理解和认知能力,能够基于感知来思考,同时在执行侧又能够像人一样灵活应对执行任务。它在突然间就改变了我们对自动化的许多思考。
以前自动化追求的是高效率,牺牲的是柔性和个性,大家一直认为效率和柔性是矛盾的。而现在,好像来了一个新事物,可能有机会把效率和柔性统一起来。
柔性化:一般机器的小批量快速量产能力,相对于通用的定制化,需要有更多灵活性。
当然,目前人形机器人在工业现场的效率还不够高,需要加快,还在努力解决柔性化的问题。但我们想通过「创 TRON」这款产品,让行业理解,实际上我们是有机会将柔性化和高效率结合起来的,因为这才是真正意义上工业的需求——就是要做到比人更好,才能真正用设备去替代人力。
艾之 :当我们谈论具身智能这个概念时,大多数人可能首先想到的是人形机器人。具身智能工业机器人(Embodied Intelligent Industrial Robots, EIIR)这个品类是如何一步步被创造出来的?与传统工业机器人的差别是什么?
贺岩:在工业机器人普及的过程中,调试和传统示教是非常复杂的过程。企业如果要使用工业机器人,需要招聘有资质、有专业背景且有经验的人,才能把机器人用起来,这极大限制了工业机器人的应用范围。很多企业主宁愿用人,因为人可以适应各种随意的来料,而且人还可以做别的事,只要去吩咐他就行了。
布置一个机器人是非常繁琐的,如果有这样一种示范教学的模式,工业机器人可以被应用的场合会大幅增多。
关于二者的分野,我觉得「智能」这个词是有时效性的,比如说我们现在管手机叫「智能手机」,但是我觉得我女儿不会这么认为,她会觉得手机不就是现在这样吗,为什么还要强调智能两个字?我们对具身智能的理解是,终极目标是让它把我们操心的事情都干了。现阶段的第一步任务是,怎样更方便的向机器人传达指定任务?不用专业支持就能够把我想要的事情交给机器人来做。这是从传统工业机器人向具身智能机器人迈出的重要的迈进。
张志琦:我从通俗的角度再聊一聊。我们在设计具身智能工业机器人时,实际上是根据我们在机器人使用过程中发现的许多问题来做的。
微亿智造从成立以来就是一家使用机器人「很深」的企业,我们最早是从产品外观检测开始,也在大量使用机器人来实现针对机构侧的要求,就像人的手一样。同时,我们也在光学、AI、模拟方面做了很多能力的提升。
在使用机器人的过程中,首先就像贺总提到的,确实很难操作,必须有专业知识来进行有效调整。我们走访了许多企业后发现,不仅仅是我们难,整个制造业都难。很多企业老板宁愿雇个临时工来解决生产力问题,也好过去买一个机械臂。以前是因为很多人觉得机械臂太贵,今天国内市场上的机械臂已经很便宜了,但为什么企业还不用?很多老板吐苦水说,买了几万块的机械臂,还得配一个月薪几万的工程师来调教它,而且订单和产线经常变化,工程师还需要时间去不断调整。相比之下,我今天招一个临时工来,或者让老师傅带一下,几乎就可以立即上岗。这是现实中的情况。
我们从很多第三方的市场报告中看到,每万名工人的机械臂使用量,几年前是 200-300 台,现在达到 300-400 台,甚至在发达制造地区达到了 400-500 台。
这个数字看起来有点奇怪,为什么每万名工人只用 500 台机械臂?剩下的 9500 名工人到底在做什么?其实就是因为,传统固化的机器人使用场景无法覆盖那么多岗位。很多企业主跟我们聊,他们设定了指标,每年要用一万台机械臂替代工人,但生产主管觉得真的好难,不知道能在哪些场景使用,能用的场景都用了,但是真的还是有太多场景还是要依靠人来解决。虽然工人难招,相对流动性大,不断要做培训。
今天是否能有一台设备能真正意义上像人一样学习,还能在执行过程中动态处理问题,最终以完成任务为核心?
这就是我们「创 TRON」这款具身智能工业机器人的核心目标,希望它能像工人一样通过学习完成工作,安装到现场,跟老师学一遍,就能把活儿干了。
艾之:这里面的鸿沟其实是,教人比教机器要简单太多了,专业人才的缺口应该仍然很大。高端人才一方面成本高,一方面供应量也未必能满足工厂需求。因此,具身智能的核心定义应该是「像人一样」。但到底是像人的外形,还是像人的思考和解决问题的能力?可能后者才是核心的概念。
张志琦:是的,这两年大家对具身智能的理解越来越深入了,人形机器人也帮助了大众理解具身智能的能力。看到一个人形设备能够在现场解决很多人做的事情,突然间对这个能力有很大认可。但在工业场景上,我们也要解决「如何算得过来账」的问题。
我们的具身智能工业机器人基本上可以让工厂在一个比较低的成本的情况下去应用,基于使用的过程积累数据,不断提升能力,从而真正让这个产品不光是「算得过来」,同时产品本身的能力还能持续提升,这是这个闭环中的最核心的点。
艾之:你们觉得工业场景中最终需要人形机器人吗?还是说结论并不一定?
张志琦:从我的观点来看,人形机器人不一定是工业现场的最佳解决方案。机械臂不一定要是两只手,也可能是四只手,甚至更多。也不一定要有双足,可以是轮子或者其他更高效的移动方式。
工业现场最初是为人类设计的,所以人形机器人可以第一时间进入到现场,但今天,工业现场的生产并不一定要为人设计。
就像以前我们做劳动防护时还得带上防毒面具,各方面考虑,它也不可能实现 24 小时不间断的生产。今天这些设备都可以超越人的能力,不见得是人的形态,但是它能够更好地发挥效益。所以,人形并不一定是工业现场中的最优解。如果有一个具备感知、认知、执行的能力的智能体,工业现场可能更需要这样的产品。
贺岩:我感觉可以把具身智能体比作硅基生物。现在的情况有点像寒武纪时期的生物大爆发,氧气增加带来生命的爆发式增长。现在的「氧气」是算力、数据和算法,这些技术的成熟带来了具身智能体的爆发式增长。
前段时间看到腾讯推出的「腾讯 5 号」养老机器人,这是一个家用机器人,主要是帮助老年人,但它不是双足机器人。因为现在双足机器人走路比老年人还要颤颤巍巍,怎么能帮助老年人呢?所以它的支撑结构做得非常稳固。其次,它没有头。当它帮助老人从轮椅转移到床上时,如果有头反而会成为干扰。没有头会让人感觉更舒服。如果它长出一个头来,反而显得多余。
这样的例子让我看到未来多种多样的硅基生物的可能性,具身智能体会以各种形态出现,但最终会是什么形态我没有办法做出预测。
艾之:这有点像人类本身,不是在每个场景中都需要发挥所有能力。比如走路时是小脑在控制,读论文时大脑的核心区域正在被激活。
其实有点像去把人这样一个已经进化得非常好的超级智能体的能力重新排列组合。如果只是单独实现其中一个模块的话,成本其实是要低很多的。不需要在每一个场景里面都放一个特别厉害的技工,或者说特别厉害的一个人。
我想稍微做一下推演,如果以机械臂为例,像自动驾驶一样有 L1-L5 的分级,贺岩总,您觉得「创 TRON」这款机器人大概属于哪个级别?如果往更高的级别发展,它会是什么样的?
贺岩:自动驾驶的过程,是随着等级提升,对人的依赖越来越低。目前的工业机器人,是要有「驾照」才能用,需要专业操作人员才能使用。而「创 TRON」可以实现在「没有驾照」的情况下,在特定领域内,没有专业背景的情况下,也能够用起来。
L1,就像是在自动倒车入库这样的场景中,不用专业的技能,普通用户也能自动完成。
L2、L3 的话,相当于在高速公路上跟车的这些功能,可以在没有专业技能的情况下自动完成。我认为「创 TRON」大概相当于 L2-L3 级别。
进化到 L4 或 L5 级别时,用户只需要告诉机器人我要完成什么任务,完全不需要任何专业技能。那时,它就真的像一位聪明的工人了。
艾之:具身智能工业机器人和消费类机器人是针对不同场景和目标设计的。两者在技术路径上应该有很大的区别吧?在发展过程中要攻克的技术难题,以及难题的优先级,是否存在很大的不同?
张志琦:对,二者的技术路径上和场景有一定的差别。
工业场景相对来说是一个闭环。它不像开放的世界那样,可能会受到各种外界因素的干扰。
举个例子,像消费类机器人在不同环境中帮助老人时,物理世界的干扰因素很多;但在工业场景中,在工厂内部,干扰相对有限。
在工厂里,操作的对象可能是物料、生产设备,或者生产过程中的工人,环境相对封闭。它需要理解和处理的物理世界的量更加有限,这使得工业场景在模型训练和技术实现上相对容易一些。但工业场景也有它的难点,比如对精度和效率没有容忍度。在 C 端场景中,如果机器人没抓住杯子,可以再试一次;但在工业场景中,任何错误和失误都是不可接受的,精度必须极高,效率也必须算得过来。如果执行速度太慢,工厂可能宁愿继续使用人力,因为我们的竞争对手始终是人。
因此,我们要做的所有具身智能产品的核心目标就是,在工业现场中做得比人更好,这样才能让工厂接受并引入设备。这也是工业场景比生活场景更复杂的地方。
我们在某些方面相对容易,比如在目标对象的训练、对世界模型和环境的理解上,工业场景的范围更小,数据集也更小。但困难之处在于,执行的操作精度和效率必须极高,因此需要更强的技术手段来落地实现。
两者在技术路径上存在差异,尤其是在落地性上,工业场景里有一个大挑战:工厂老板算不过来账,他就不用。AI 产品都是越用越好的,数据越来越多,能力越用越强。如果一开始在商业化模式上算不过来,可能就变成了一个「秀场」,大家鼓个掌,但无法实际落地。
然而,一旦可以算得过来账,能够产生实际的数据和业务价值,它就会有巨大的市场潜力。因此,这一点是我们需要跨越的。
艾之:总结起来,核心就是成本、工作效率和任务执行的准确度,要在这三者之间找到最优解。当然这个成本并不是一个静态的标价,而是在做所有的技术方案组合的时候,要去不断计算的。产品上线之后,它至少要和人类表现得一样好,甚至在某些任务上比人类更出色。
有观众问到,机械臂有了智慧后,是否可以降低配套设备的要求?因为产线上不只是机械臂,还有很多其他系统设备。
张志琦:这两年我们也和很多大型制造集团交流过,包括像苹果、特斯拉这样在全球制造领域中相对走到最前端的技术部门。大家过去看到的生产线可能很壮观,上百米长,充满了机械设备整齐如一。但最近跟全球顶级的这些客户沟通的时候发现,大家在这两年的思路有很大变化,探讨的其中一个新话题是:有没有可能在一个集装箱大小的空间内完成一台 iPhone 的生产?
艾之 :这是一个非常大胆的场景设想。
张志琦:如果能实现这个目标,将会对整个制造行业产生巨大的影响。过去我们听过「黑灯工厂」的概念,但现在都很少提这个话题,因为大家突然间发觉它生产的东西很有限,它的柔性化程度较低。
黑灯工厂:Dark Factory,即智慧工厂,因为从原材料到最终成品,所有的加工、运输、检测过程均在空无一人的「黑灯工厂」内完成,无需人工操作。
现在的问题是,能否有一个工厂,生产过程可以动态调配?
如果我今天雇了一帮工人来,今天培训什么,他们就能干什么。明天再培训其他内容,他们就能生产其他的东西。从这个角度上说,人的柔性化程度是最高的。
如果我们把这些思路结合在一块的话,你会发觉,这样一来,原来的自动化设备只能做单一的任务,而未来应该能够执行多项任务,甚至如果下面有一个抽屉的话,它还能找到不同的工具完成各类操作。
这才是「在一个集装箱里生产出一台 iPhone」的核心点。
在集装箱的这个范围内,只要给到足够的工具和材料,人也能干,但今天,我们能不能用这类的设备去干?这是我们在现在和将来,在智能制造上要去考虑的问题。
的确,具身智能设备的应用会简化整个制造过程中上下游设备的要求。因为人和人之间能够直接进行沟通和交流,具身智能设备之间同样可以通过更灵活的方式完成各工序的衔接,从而进一步简化流程。设想未来某一天,具身智能机器人被广泛应用时,只需下发一个指令,只要有原材料的,这些设备就能自动化地完成生产任务。这正是我们对未来制造场景的美好愿景。
艾之:微亿团队可能主要负责算法部分,让机械臂学习人类的动作和任务,其中有哪些关键环节?大模型在这一过程中发挥了哪些作用?
张志琦:其实,这项技术能够真正落地,本质上得益于人工智能的进步。在过去的自动化领域,实现这种技术是不可能的。我们可以简单拆解一下这个过程。首先,关键在于操作对象是什么,必须让机械臂识别这个对象,让它能够操作。第二,有了这个操作对象之后,如何完成这个任务?在三维空间中,需要去动态规划和执行。因此,这个过程包括感知、认知、规划、驱动和执行,它会把每个部分都紧密结合。
在感知方面,我们会基于视觉的能力,以前的机械臂只能通过电机传感信号了解自身的位置,而没有视觉能力。但今天我们为机器人装上了「眼睛」,它多了视觉的能力,不仅能感知操作对象,还能感知到自己和环境,在感知上我们就必须把三个感知的能力要融合在一起。
感知完成后,我们需要进行认知。以前的认知过程非常简单,可能就像我们做质检时,认知只是在拍摄的图片上进行分析和判别。但现在的认知必须结合三种不同的感知能力,真正理解整件事情。就像我们之前提到的,人类以目标和任务为核心,具体是怎么完成某项工作的?我们需要有效地将任务拆解为子任务,并在执行过程中将这些任务重新整合在一起。
完成认知后,接下来就是规划,需要用什么样的流程和方式去完成这个任务,同时还要和机械臂更深度结合,把驱动和执行有效地结合起来。在驱动和执行的过程中,因为我们知道实际操作中可能会遇到干扰,或者出现异常,需要动态地修正和重新规划,基于新的感知和认知,形成新的规划和执行。这个过程必须严丝合缝地形成高速执行的结果,动态地完成过程中的规划和修正,才能真正实现任务的落地执行。
这与传统自动化完全不一样。传统自动化就是通过编程,按照固定任务和结果执行。而现在的流程,在各个环节中都需要大量的循环往复,把感知、认知、规划、驱动和执行紧密结合,才能真正完成任务。
因此,如果只从算法侧,微亿是做不了这件事的,必须与捷勃特,特别是机械臂的本体之间进行深度的整合,才能有效结合动态规划和执行,把感知、认知与执行机构紧密衔接。只有这样,才能将这些环节像人类一样去操作、去落地。
艾之:在具身智能领域,我们都知道可能会有不同的技术路径。有些原本专注于机器人制造的公司,在解决这一命题时会思考,算法如何更好地与机械本体的控制系统、驱动系统结合。能否更形象地展开一下,算法真正与机械本体深度融合的难点究竟在哪里?
贺岩:举个例子,因为我们的摄像头是安装在机械臂上,相当于你的「眼睛」一直在移动。当你看到一幅画面时,首先要知道我的眼睛到底在哪里,因为它不是固定的,而是动态的。因此,这需要一个非常高速的数据交互能力,系统能够获取摄像头的当前位置,将这两组数据拼起来,才能形成准确的空间感知,否则就会出现混乱。
另外,如果系统要规划机械臂的运动,机械臂的物理能力是有上限的。如果速度过快,电机会损坏,所有的物理系统都有极限。我们需要在不超过物理极限的情况下,尽可能提高机械臂的效率,这就要求将动力学模型深度集成到这套系统中。这是一个非常深度的绑定,一般的合作关系很难打通,我们在一起紧密合作才实现了这样的技术突破。
艾之:刚才提到的视觉模块,它捕捉的是视频的连续帧信息,还是静态照片信息?
张志琦:其实我们是从连续的信息中抽取帧,一帧一帧地抽出来。
前面我们也谈到,工业现场的第一个问题就是要把账算清楚。今天许多与人形机器人相关的成本,一部分是在执行结构上,比如关节的成本很高。另一部分是,人形机器人在感知能力上比较强,它们用了大量传感器,从激光雷达到 3D 相机,能装的设备几乎都装上了,保证有足够的信息量,提升设备的环境感知能力。但坦白说,这些传感器都是成本。
如果我们把这种模式应用到工业现场,问题就很难解决,账是算不过来的。所以我们给团队设定了一个预设条件——不能使用贵的传感器,也不能用更贵的技术来实现这些目标。
艾之:先把上限卡死。
张志琦:对,我必须设定一个上限,在受限的环境中解决问题。这增加了团队的难度,比如在二维图像的方案中,我们看到的都是一张张 2D 的照片。如何基于 2D 照片判断对象物体的位置、摆放方式、与我们的相对距离。所有这些都需要将 2D 转换为 3D 的空间信息,而且精度必须非常高。工业现场不能容忍超过 1 毫米以上的公差,否则机械臂就抓不起来,或者无法正确操作。因此,我们必须在受限的环境中实现这些目标,这是一个较大的难题。
正是因为完成了这项工作,具身智能工业机器人在成本上才与传统工业机械臂接近。它没有增加昂贵的感知设备,而是依靠算法能力,通过机器人的相对空间位置和视觉捕捉的对象物体画面,同时参考对象物体的 3D CAD 图纸,完成空间建模,从而进行 3D 空间计算、执行。这背后的技术难度比较高。
就像前面提到,「AI 教母」李飞飞,最近也在做与空间智能相关的工作,通过一张 2D 照片就能理解背后的物理关系。今天,我们在工业现场实现了类似的方式,通过一张或一组连续的照片,判断对象物体与机器人本体的相对位置、物理环境和空间坐标,完成特定任务。这是其中比较难的点。
艾之:这个模型是端侧的小模型,还是多模态模型?它是由几个模型配合完成的吗?
张志琦:今天具身智能的难点在于它使用了大量不同能力的组合。比如说对象物体的识别,它涉及 2D 到 3D 的模型能力的转化,但它本质上是一个小模型,难点在于算法精度必须非常高,训练数据集也要足够小,训练时间要短。
过去,我们的第一个版本需要一天的时间,通过拍摄几千张不同位置的照片才能完成空间建模。现在,我只需要 200 张以内的照片,在几个小时内就能完成,这在速度上有了极大的提升,但本质上仍是一个参数级不高的小模型。
同时,我们也有大模型在背后支持。当人类操作时,实际上处理的是一组连续的视频,我们通过大模型技术来理解视频中的语义,从而理解人类是如何操作对象物体的,再将这些操作拆解成不同的任务,进行编排和执行。这是有大模型在背后支撑的。当然,这其中存在错误的概率,因为大家都知道,大模型在初期输出时会有不稳定性,有时它学错了动作,还需要我们修正。
本质上,这背后是由一个视频语义理解的大模型来落地执行。但在每个子任务级,它又是由一堆高精度的小模型指挥机器人完成不同的运动规划任务的集合,过程中要去跟机器人自身运动的动力学算法打通,确保机器人在执行时达到最高效率。所以在这个过程中,其实是融合了大量技术。
这也是为什么大家觉得具身智能产品「很难」,难点就在于,它必须将各种技术捏合在一起,才能完成特定任务。而且,还得把实验室级别的技术和实际落地的工程化产品结合起来,因为最终落地的还是一个工程化的产品,要能够被客户使用。这是其中最难的部分。
艾之:感觉你们绝对是属于务实派,直接坦诚地告诉我们,其实有些 badcase,不要抱太高的预期,不过在精度要求不那么高的场景下,已经可以使用了。
你们团队的研发风格也是,设定了明确的上限,坚守在这个成本范围内寻求最优解,而不是无限制地投入研发经费去追求更好的技术参数或零部件。因为即便投入再多,如果最终算不过来,也无法真正投产。
这种务实的思维,可能是来自长期扎根工业场景的经验。这个可能也是工业机器人出身的团队,或者说一直扎根在工业场景里面的团队去创新时,可能会有的一些不同的思维和切入角度。
刚才我们讲了大致的实现路径,我想请教一下贺岩总,您怎么看待微亿和捷勃特的技术路径与端到端模型算法的路径?您对这些技术路径的未来有怎样的判断?
贺岩:首先在端到端路径上,它必须是在容错率非常高的场景中,可以一步步走向实用和成熟。而在工业成熟的场景中,我相信,不得不采用这种,一部分基于训练,一部分基于规则的拼装组合的方式。因为越多的落地场景,越多的数据,就越能推动技术的发展。因为首先我得在一个场景中落地,越落地越有数据,可能越成熟。
艾之:得先让这个飞轮转起来。
贺岩:对,而且在中国这样一个制造业强国,我们有大量的数据源可以利用。所以只要这些数据被有效使用,我们就能逐步走向成熟。最终,这两条路径应该是殊途同归的。但先得落地,接触场景和布局是非常重要的,如果无法接触到这些场景,就很难爬上这坡。
艾之:关于模型的能力。今天大模型能力还在不断迭代,像 OpenAI 最近发布了新模型,我们看到了推理和 agent 能力的提升。这种基础模型的提升,能否在工业场景中带来同等比例的能力提升?
张志琦:是的,今天我们的「创TRON」1.0 在工业现场能应对的场景还是有限的。我们目前主攻四个场景:上料下料、装配、打磨和质检。这些都是制造业中常见的场景。随着基础模型能力的提升,我们可以针对不同的工业场景,进一步提升能力,提高不同领域中的任务复杂度,逐步让机器人越来越像有经验的人一样应对各种场景。
所以从大模型的技术能力提升上来说,工业现场的场景化应用的能力也是会越来越丰富的。有时候大家谈到工业大模型和通用化大模型,很多人觉得难,因为没有足够的数据。这也是工业 AI 导入速度偏慢的原因之一。但通过具身智能工业集成,我们能够在每个场景中积累数据,并通过机器人载体有效执行和落地,沉淀有价值的数据。
我们经常开玩笑说,工业具身智能机器人是一个学徒,跟着老师傅去学习,其实就是把人脑里的知识倒出来,通过数字化载体记录和储存下来,以前好工人的经验是口口相传的,而今天是,用一个有数字化能力的产品把这部分经验和知识沉淀下来。
所以,可以畅想一下,虽然目前我们只支持四个场景,但随着底层模型能力的提升,我们能够应对更多复杂场景,逐渐替代部分人工。
回过头来看,具身智能工业机器人的终极目标非常简单。如果今天某些地区有一万名工人,有 500 台机械臂,那我们的目标很简单,就是希望通过机械臂替代这 9500 个工人,把人从整个制造的环节里完全释放出来。
艾之:模型算法每次迭代更新需要多长时间?你们有具体数据或案例吗?
张志琦:学习上需要花一些时间,切换上速度是极其快的。
目前,对于操作对象物体的处理,基本上是在小时级。机器人学习一遍后,基于任务的复杂度,也能在小时级完成所有模型构建。一般在工厂培训新员工也需要花半天时间,而我们的设备基本可以在同样时间内实现落地。但在执行过程中,设备的效率一定比人高,一方面执行速度更快,另一方面设备可以 7x24 小时不间断工作。一旦学完一遍,产线的切换就可以在秒级完成,也就是可以非常快地在不同的模型之间进行有效的转化。
艾之:中国作为制造业大国,很多场景下人力成本仍然低于机器成本。我们现在有个大前提,就是希望成本尽量可控,让机器人顺利进入生产线。其次,我们需要大量的数据,不断完善和提升模型能力。
贺岩总,从您的角度来看,像「创 TRON」这样的机器人,或者未来更先进的版本,如何才能顺利进入生产线?对于客户来说,用新的解决方案替代掉老生产线上的方案,他们的核心动力是什么?如何让他们更愿意接受这些新方案?这些客户肯定是非常精打细算、成本敏感的,怎么让他们愿意做出这种切换?
贺岩:对于成熟的生产线,如果没有升级的需求,它们可能会继续使用传统方法。问题在于,很多工厂和企业主想用机器人,但用不起来。这限制了工业机器人适用的范围。
「创TRON」的出现解决了几个问题。首先,自动化设备,对上下料的要求不高。其次,我不需要招有学历、有资质的专业人员来实施这套系统,这对企业来说是一个巨大的优势。现在工业机器人替代工人的渗透率还很低,比如 1 万名工人中只有五六百台机器人,这是因为很多场景上,工业机器人根本就用不起来。
我相信,现在使用工业机器人的那些成熟生产线会继续存在下去,但「创TRON」的目标市场是那些剩下的 9000 多个岗位。它能够真正解决的是想用但是没法用的企业主的问题。
张志琦:我再补充一下,坦白讲,机器人市场每年的增长幅度其实有限。
近年来协作机械臂的兴起,替代了一些传统工业机械臂的场景,但协作机械臂的应用量仍然有限。以前它解决的最核心问题是安全性问题,比如在人和设备共处时,设备碰到人会自动停下来,避免伤害。尽管协作机械臂在一些生活场景中应用增加,但整体市场的增长量每年也就 20% 左右,这里面协作机械臂的量甚至蚕食了部分工业机械臂的市场份额。
这也明确地回应到刚才贺岩总提到的话题,今天其实仍然是一个传统市场,为什么增长幅度没有那么的快?就是因为太多的场景,不是今天的工业机器人或者工业机器人加上传统的协作机器人能够去覆盖的场景,还是需要依靠人力去做。
而我们的「创 TRON」这一类产品,一方面是能够比传统机器人在使用上更加简洁。我们真正的目标市场是那些无法靠工业机器人或协作机器人解决问题的市场,因为这些场景需要灵活性和应对多种变化,而传统工业机器人对此无能为力。但今天,我们有机会依靠具身智能产品,用人类的方式来完成这些任务。
既然这些任务今天是由人来做的,我们就有机会用这类产品替代人力,实现自动化。这才是我们这款产品真正的目标市场和用户群体。
艾之:确实有很多场景,大家想用机器人但觉得太难,甚至不是成本问题,而是技术能力的鸿沟问题,这在过去这一直是一个编程和翻译的难题——如何将工艺翻译成机械臂和机器人能理解的数字语言?
张志琦:现在很多专业人员的工作是「帮机器人理解业务和人类需求」,而「创 TRON」这类产品的终极目标是让机器去更好地理解人,而不是让人去适应机器。这是是我们产品的核心点。
艾之:我有个外行问题,现在我们的机械臂像个学徒,去学习老师傅的工艺。那么,在工业制造领域,工艺的数字化水平大概是什么样的?
贺岩:工艺是生产某个产品时专业的 know-how,关于「我怎么把这件事情做好」。
未来的生产应该是,机器人的使用者只需要知道如何生产出好的产品,只需要知道自己怎么把这个东西做好,然后能够通过自己的专业语言让机器人听懂就可以了,而不需要懂得机器人的专业知识。这是「创TRON」的目标。
张志琦:对,其实这也涉及到另一个话题。
机器人市场发展了几十年,很多海外头部的机器人厂商已经在不同的场景中已经积累了大量经验,这些经验逐渐成为他们另一个最核心的盈利产品,就是所谓的工艺包或 SDK 库。比如说在焊接或涂胶等领域,他们有很多这样的库,能够帮助专业人员更好地翻译业务上的诉求和需求,同时能够在机器人运动控制和操作对象方面快速适应。然而,回到国内来看,许多汽车厂商在这方面的积累相对有限。
为什么积累有限?首先,起点不同,国外厂商发展了几十年,而国内很多厂商相对年轻。其次,这与市场原则有关。因为工艺包本质上是一个软件包,软件包的成本是很低的。今天,国外的机器人在硬件上已经被国内厂商卷到挣不到什么钱的程度了,但在这一部分软件包上,还是保持了很大的利润。而在国内,机器人工程师和集成商的人工成本还相对偏低,因此集成商往往不会购买国外的 SDK 库和工艺包,而是手动调试,调整到能基本满足需求的程度就可以了。但这样做的柔性化程度会变得更低,机器人厂商也难以在这一领域积累经验。因此,这就是为什么在这类工艺包上的数据积累较少。
同时,国内还有没有机会解决这个问题呢?这也是一个「先有鸡还是先有蛋」的问题。
可能一部分有支付能力的厂商不加思考地就选择了国外的机器人和工艺包,能够把这类场景覆盖掉,这样就没有国产机器人的事了。但国产机器人厂商又因为集成商的手动调试,无法积累数据,这就导致国产厂商难以在这方面进一步提升能力。
但是,像「创 TRON」这样的产品恰恰解决了这个问题,因为它能够在数据能力上不断积累,去对于生产中间的所有的过程数据,不管是 good case 还是 bad case,它都可以有效记录,不断提升模型能力。
因此,以前想在这些场景中「弯道超车」其实是不太可能的。而今天通过 AI 技术,我们实际上是换了条道。依靠具身智能产品,我们有机会去实现这个目标。
艾之:确实,大模型技术让我们看到了另一种可能性,就像从另一个坡爬上去,可能可以把中间的四五步并作两三步,直接达到同样的目标。因为像工业 4.0、柔性制造这些概念,已经喊了很多年了,本身是从国外兴起的。
艾之:从整个国外的产业基础来看,他们的数字化和信息化积累还是非常扎实的。不过,可能他们也存在原有的路径依赖,比如你们在工业博览会上展示机械臂的时候,我听说「四大家族」也都在。能不能给我们分享一下传统工业机器人「四大家族」的最新尝试?我们在全球范围内的竞争力现在处于什么样的水平?
注:传统工业机器人领域的「四大家族」指的是瑞士的 ABB、德国的 KUKA、日本的 FANUC(发那科)和安川电机(Yaskawa)。
贺岩:我们的展台在「四大家族」展区的中心位置,因此我们也观察了一圈。老实说,我们没有看到像「创 TRON」这样的创新产品,至少在展会上没有看到特别亮眼的具身智能技术。
张志琦:其实看完之后我们更加有信心了,哈哈。应该这样说,「四大家族」确实有很大的包袱。
艾之:对,这就是我刚才提到的路径依赖问题,之前他们的基础太扎实了。
张志琦:坦白讲,很多时候这种路径依赖会抑制创新能力。所以今年看到的四大家族,还是在机器人的底层技术上不断精进,比如运动控制和系统控制。机器人已经发展了几十年,这些方面能提升的空间是有限的。但反观国产机器人的展馆就热闹得多,各种类型的机器人都有,比如帮人按摩、针灸、冲咖啡的,各种各样的展示非常丰富。
艾之:是的,冲咖啡的都是入门基础款。
张志琦:对,现场很热闹。我们也看到一些厂商放的视频,展示的功能和我们的「创TRON」有些接近,向大家展示大模型如何与机器人技术结合。但坦白说,在实际操作上,还没有谁敢真正搬一台设备到现场,和大家互动演示。这一点其实很有意思。我们的展台上有很多友商,气氛也很热闹。国外的机器人厂商和国内的同行都来看,大家对我们的设备评价都很高。
艾之:刚才提到另辟蹊径,找到了一些技术红利,走了一条创新的路径。想请教一个外行问题,如果别人想抄我们的技术,好抄吗?
张志琦:本质上来说,产品的理念和设计并不是别人完全想不到的。今天,「创 TRON」这个产品的技术分解后,会发现其中有很多复杂问题,涉及技术、工程等一系列难题,必须将这些问题整合起来,才能真正落地。
从一家 AI 公司成长为一家机器人公司很难,从一家机器人公司成长为一家 AI 公司也很难。像「创TRON」这种具身智能产品,必须是硬件与软件、机器人与 AI 的深度结合。今天很多人形机器人公司动辄有 400-500 人的团队,至少需要 200 多人的硬件团队,100 多人的算法和软件团队,才能逐步将产品做起来。
如果没有这样的团队配置,基本上就是缺胳膊少腿,很难做到。我们在做具身智能工业集成时,如果没有两家在技术上的深度合作,这件事几乎不可能实现。许多同行在工博会上看到我们的产品时,都说这确实很难做到。外行可能觉得机器人很聪明,但内行看门道,他们能看出我们在技术上涉及了很多细节,超越了很多技术能力已经不错的公司。
从我的角度来说,我希望「创TRON」这个产品能以点带面。首先,它能引导微亿和捷勃特的产品更好地向具身智能方向发展。其次,我也希望同行能看到这个产品的价值,进入这个赛道。工业赛道的天花板非常高,不仅是微亿和捷勃特两家公司能够完成的。虽然门槛高,但如果大家一起努力前行,整个中国的制造业就有机会登上珠穆朗玛峰。无论我们是从北坡攀登,还是友商从南坡攀登,或者我们为后来的公司踩出了一些脚印,让他们能够更快前进,对整个中国制造业登顶珠峰都有帮助。所以我们既不怕被抄,也欢迎大家来抄。
艾之:先把蛋糕做大再说,对吧?
贺岩:对,我从另一个角度稍微补充一下。
我们刚才说的门槛,首先是微亿智造和捷勃特在工业场景中的深厚积累和理解。我们要做具身人工智能,但客户到底需要什么,这需要我们在行业里深耕多年积累的经验。第二,是微亿团队对 AI 技术的强大把控能力。
再有,捷勃特机器人的自研率非常高。所以当微亿智造问能否实现某个功能时,我们都能做到,因为所有的技术都是自主研发的。
还有一点非常重要,就是双方之间深厚的互信。我把我的技术开放给你,你也开放给我,这都建立在彼此深层的信任基础上。
所以,这几方面都是很高的门槛。
艾之:未来你们的产品和技术路线上,可能会带来什么样的机械臂或具身智能工业机器人?
贺岩:首先我们要把「创 TRON」这款产品真正落地。因为从成功率和效率的角度看,离「为客户创造价值」,我们还有很多事可以做,如果能够把这个事情做到更好,本身就是一件伟大、蛮有挑战的事。从产品展示到找到种子客户,再到让客户真正意识到这款产品的价值,这中间还有一段路要走,希望能踏实地把这条路走好,走稳。
艾之:先让更多的工厂和生产线用起来,这是关键。
张志琦:对的,其实按照我们和捷勃特的时间规划,明年上半年我们计划完成产品的小批量生产,下半年会完成大批量生产。就像贺岩总说的,产品工程化过程中还有很多工作要快速落地和实现。同时我们的第一批种子客户已经逐步开始导入这些设备,完成第一期项目的落地。我们也希望在这批项目中尽快看到成果,为更多同行业甚至跨行业的客户提供一个良好的基础。
贺岩:从长远来看,未来我们可能会结合力学和触觉,现在我们已经结合了视觉,接下来还会赋予机器人更多像人一样的感觉——有眼睛、有大脑、再加上重量感。未来还有很多事情可以做。
文章来自于微信公众号“Founder Park”,作者“Founder Park”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales