AISociety百人百问:探索人形机器人的未来展望。
【AI&Society百人百问】是由腾讯研究院联合多方发起,通过不同学科背景、不同领域从业者的提问与解答,促进围绕人工智能的多元、前瞻与系统化思考。百人百问旨在聚焦生成式人工智能带来的技术、商业与社会议题,通过多方对话、研究与协同,探索面向智能化未来的新路径、新范式,更好发挥人工智能的潜力与优势,致力于提升社会福祉。
第一期我们聚焦人形机器人,邀请了5位业界嘉宾,从先前征集的“百人百问”的问题中,选择回答了18个问题,如机器人的“ChatGPT”时刻什么时候到来?机器人的大脑和小脑是什么?人脑和人形,哪个更重要?更具通用能力机器人出现,是否会对劳动力市场构成冲击?机器人除了能干活儿,能不能提供情绪价值……
丁 宁 广东省具身智能机器人创新中心董事长
王 鹤 北京大学助理教授、北大银河通用具身智能联合实验室主任
陈 立 宇树科技联合合伙人
DK 蓝驰创投科技投资人
田 野 腾讯 AI Lab & Robotics X 高级研究员
徐一平 腾讯研究院高级研究员(主理人)
针对这些问题,我们的交流只是一个开始,希望启发大家的讨论,欢迎大家给我们留言互动,提出您关心的问题或答案。
丁宁:从最直接的这个效果来看,肯定是现在类似于语言大模型跟机器人的结合,让机器人能够用自然语言方式跟人来做交流。这个背后意义挺重大的,因为拉低了机器人操作使用和功能编辑、设计的门槛。实现了机器人的平权,有可能会大幅推进整个机器人行业跟大众跟应用的场景的结合。一线没有经过这方面训练的非专业人士的使用是非常有意义的一个事情。就是接入门槛大幅降低。
另外,我觉得最重要的意义是什么?大模型的技术路线,让大家建立起了一个信心。这个scaling law的这种方式能够让机器对于复杂的问题,一个边界非常广阔的、跨行业跨场景的问题的底层理解能力,建立了很好的这个信心,它不仅仅是聊天。聊天的本质是什么?是基于人类理解世界所产出语言作为语料来推演出来人是怎么去理解世界的。那么把理解世界的这一些关系重构出来。这样的话你才能跟他聊得起来,才能接得住,不管任何人、任何背景都能够都提出来的问题。它意味着我理解世界的能力、理解问题的能力比以往大幅的提升。
下面除了语言交流可能其实更值得期待的能力就是让机器推理决策能力大幅提升。那么我们通过文生文或者文生图以及文生视频的结果看出来,它真的好像懂了这个世界运行的规则,基于这些规则去推演出来一种可能性。这个时候,我们想让它去根据一些特定任务去理解一些任务,推演出动作,或者说之前没有教过、没有训练过也能够基于这种规则来生成决策,这个是值得期待的。只不过这个后面这一步还没有到非常理想的状态下,它不仅仅只是一个聊天的问题。也不仅仅只是一个逻辑层面的重构问题,还有对于物理世界理解的问题。现在我们期待具身智能的方法论,用机器或者装备作为数据的入口,更多维、更广泛的数据场景能够让机器理解世界更加到位一点。这个时候它的应对变化的问题能力,应对长尾的能力,跨场景、跨行业、跨任务的能力能够进一步的提升。
第一个是让大家的信心,会降低使用门槛。第二,让大家对大模型的技术路线有认可。第三是吸纳资源进一步往这条线上面来聚集。我觉得这个是一个非常好的现象。
丁宁:大脑小脑之分是在一个物理世界去应对不同层次的问题的一种策略。有的时候通过训练、通过交互过程形成了一个应对某一类问题的一个反应、一个策略,以后就可以固化下来。这个从认知心理学上也有这种现象,会用神经网络或者神经系统形成一个小闭环,快速碰到这种事情就快速反应,类似于有点像直觉的过程。这个就是类似于muscle memory,不需要太多的决策再去把这个底层的事情全部都捋一遍再来做一个反应,所以这个就有点像小脑。更高层次的可能是之前没有遇到过的。这个时候就可能需要根据之前的经验,根据对场景、外部物理世界规律的推演,形成一些新的策略。这种策略以前没有实施过,也不见得会预判到结果,但是可以推演出一个这个可能性。这个时候偏决策一点,这就是大脑这方面的能力。我觉得这种划分的话,这个无非是对复杂问题解耦、分层,分而治之,用不同的策略去开展执行的过程。现在这种分法包括我们国家分成大脑、小脑、肢体等等,我觉得也是比较合理的一个架构。
王鹤:机器人迎来chatGPT时刻目前的瓶颈主要是小脑。小脑无法达到chatGPT的通用性,就是few shot、one shot generalization(小样本甚至单样本)能力。我们对机器人大小脑的这个划分不是完全按照人类大小脑工作的机理。基本上我们把感知和决策认为是大脑,对本体或肢体进行控制生成动作认为是机器人的小脑。在这样的意义下,大脑今天是比小脑发达很多的。今天不论是chatGPT还是GPT-4o本质上都是接收图文信息回答图文,就是决策和感知的过程,所以都属于大脑的部分。我们机器人的chatGPT时刻一定需要机器人可以在理解现实世界和进行“我要做什么事情”的决策之后,真的能把这件事情干成,就需要小脑大模型去泛化,根据任务去驱使身体产生关节电机扭矩或者是关节位置变化。这个是目前我们离机器人chatGPT时刻最大的一个距离。
我们今天谈大模型不管是大脑和小脑的任务都是足够复杂。大脑今天是大模型,小脑应该也是大模型。小脑会控制人形机器人全身上下从双腿、双足到双手、颈部、腰部等五六十个自由度的高维运动。这样泛化控制目前最大的问题在于数据量不够,无法驱动任何一个大模型去做在任何场景、在任何任务下的泛化执行。我们大脑大模型的数据来自于互联网,但是小脑大模型的数据互联网上却没有机器人对应配套的数据。所以说我们今天要想实现就是机器人chatGPT时刻,那么我们关键是实现小脑大模型的能力,那么小脑大模型又卡在了这个数据这一关。
这也是我们银河通用用合成数据试图去完成的一个非常重要的转变。如果这一步能够打通,说机器人chatGPT时刻将会是对人类技术的一个巨大革命。机器人将拥有从感知到决策到执行的全面泛化,一旦再配以人形这样高自由度的身体的话,可能在很多场景能够大量的取代人类劳动力。那么这一个时间点目前看可能离我们还有至少5到10年的时间。
陈立:人形机器人从腰部可以一切为二。下半身负责locomotion,上半身负责manipulation。我们开始做人形就确定是双足方案主要还是我们本身四足机器人有积累,做技术迁移的时候难度其实还是非常小,这是最核心的一个原因。当然还有其他的原因就是我们相对还是非常笃定的认为就是人形机器人是通用人工智能最简单直接的载体,双足就是一步到位了。第三个原因就是双足是最符合大众对于科技对于人形机器人概念认知。
在商业化和落地场景,特别是应用场景这个层面还是要是脚踏实地的去思考一些问题,比如说在工厂这个场景当中,其实并不需要一定要双足。因为双足的成本也高,说实话可靠性也没有轮式底盘好。那这种情况下,其实我们就是需要上半身的操控能力要有一个非常好的体现。对于商业化进程当中,其实并不是一条路走到底。大部分的人形机器人公司都去做轮式底盘,但是上半身一定是多自由度的手臂和多自由灵巧手去做操作。
陈立: 宇树其实不是一年,而是半年。我们目前有两款人形机器人,一款是全尺寸的比较高的一米八的H1,这款人形机器是去年2月份立项,8月15号发布的1.0版本。今年5月13号发布了G1这款中型尺寸人形机器人,大概一米三左右。这款人形机器人是我们去年年底立项的。所以基本研发节奏基本上是半年一款。宇树科技对于机器人本体有一些优势。因为我们本身是做四足的,所以四足机器人这一块,我们是从最底层的关节模组开始做自研。像关节模组当中的电机、减速器、电路驱动器、编码器、传感器都是自研的。经常有朋友问我关键模组上游供应商是哪些厂家?因为我们上游供应商是原材料厂商,比如说我们的电机是买铜线和磁铁。然后我们自己设计电机、磁圈设计,线圈怎样绕线,包括这个绕线整个过程工艺怎么去讲究,这些是我们自己去做,包括减速器这一块对、电池,我们是采购单个一个电芯,然后焊接,也包括BMS管理系统都是我们自己做,所以我们相对来说,在机器人这个领域当中做的还是非常深入的。我们去迁移到人形机器人的时候节奏确实会快很多。因为其实四足和人形底层技术路径是一样的,就举个不太恰当的,可能用了同一套或者同几套数学公式去解不同题目。机器人相对来说数学题会中等难度,人形机器人难度会更大一些,但是他们底层逻辑还是用同样的几套这个数学公式在做适配。
那当然话说回来并不是说这个研发的有多快人形就有多好,这个其实也是要一分为二去看的。我觉得更多的还是要去看人形机器人未来的一些包括他的硬件,以及结合他的小脑包括结合大脑做一些泛化的学习和落地的能力。就是这个硬件本身量产能力包括成本把控能力,包括量产之后出厂一致化。如果一致化程度做的不高的话,每台生产出来的差异就很大,再用具身智能去赋能的时候可能每一台都要调蛮久的。这样就不适合去批量的。
所以难点就在于做一个人形机器人本体样机其实难度我觉得一点都不大。但是做出来之后就是能不能用起来最重要,如果并不能形成批量化订单的话,就要考虑的问题就比较多了。人形机器人本体公司需要去思考的就是说可能底层的一些,包括怎么去把可靠性给做好。
王鹤:因为具身智能数据仍然是一个争议不休的话题。具身智能有四种数据,体量最大的是人做事情的视频和图片数据,那么其次就是在真实世界通过遥控器方式去遥控机器人产生的遥操作数据。再其次就是机器人靠自我policy在环境中测试或者是进行强化学习回传的数据。这是按目前来看存量机器人在真实世界的三种数据。那么跟它们与之对应的就是在合成和仿真世界里大量的synthetic data(合成数据)。那么这四种数据,其实就是大家很希望能够用人类操作的视频和图片就能教会机器人干活。
目前看来,在学术上不是能够走到底的。视频和图片数据能有一定的帮助机器人学习,提升机器人视觉学习表征的作用,但是不能把动作学会。为什么?我们讲的就是说人的身体跟机器人的身体还是有不同的。所以说拥有这个手每一时刻张开多少角度最后把这个物体抓住的这个数。但在机器人上,自由度不同、关节长短不同,直接拿一个人的数据即使是关节角度数据机器人也是学不会的。更别说往往得到的只是一个二维视频,根本没有这些动作的3D信息。那么换一句话说,我们也经常在电视上看别人打篮球,看别人游泳,看别人跳水。那这些视频你看再多你也学不会怎么去跳水,怎么骑自行车。所以第一类数据,存量大但它没有动作信息。
第二类遥操作数据其实是现在关注特别多的。像特斯拉demo中把电池放到红色的盒子里头这件事,完全就是用模仿学习的方式,通过人类摇操作形成大量的数据进行学习的。这一个例子就可以让我们看到,把完全一模一样的电池放到五乘六一共三十个格的盒子里头竟然有40个采集人员就昼夜不分的采集,每一个格往里放的数据都得分别采,在每一个格儿斜着、歪着的数据都得采,所以它的数据效率是极低的,而且做这么简单的一个活背后的人力成本是非常高的,那更别说让机器人直接在世界里头强化学习,它的安全性和成本比遥操还要大。
所以从博士期间,我考虑的一个问题是,能不能摆脱真实世界的数据,用仿真物理和图形学合成来形成机器人真正的数据来源。这条路从17年我做类别级物体位资估计的时候就使用合成数据,到今天我们完全使用合成数据。使用多大量级?十亿个抓取,百万千万的不同场景来训练机器人做抓取。那么我们也得到了全世界唯一一个能抓透明、高光、吸光等任意材质、软硬度的泛化抓取的能力,有95%的成功率。前几天在上海张江的人形机器人大会也现场进行了长达一天的不间断的演示,让大家体验合成数据到底能不能训练出真实世界work的技能。所以这一点上我的看法是:具身智能从0到1通过合成数据是又快又低成本的。当然了,完成了0到1,从1到100如果我们能有大量的机器人在真实世界把数据测试数据回传回来,我们在进行类似RLHF这样的学习,是构成机器人数据的第二曲线,将能够推动具身智能通用机器人从1到100,这是我的看法。
陈立:宇树从一几年开始就采用英伟达GPU。现在主要是GPU,这个仿真环境,包括Isaac Sim和Isaac Gym。这两个其实都是黄仁勋的儿子直接管理的这部门。所以可想而知,他们对这一块有多么的重视。有了这两个仿真平台,其实对我们机器人本体公司便利程度很大,就不需要去做太多的训练。当然实际上训练还是要的,但是在早期我们做批量化的仿真的情况下,就可以直接在他们这个平台上去使用,其实效率确实会高非常多。还有就是成本这一块也可以降到最低,我觉得这个是对我们宇树来说这个最大的帮助。我相信也是对很多这个机器人公司,包括人形公司一个非常大的帮助。当然英伟达在今年3月份启动了GR00T,他们其实还是非常笃定的,就是说机器人特别人形机器人是继自动驾驶以后的一个非常重要的赛道。所以他们也成立了相应的实验室,主要做算力特别是人形机器人算力和GPU的技术迭代保障。
因为英伟达本身自己是不会去做,虽然投资人形机器人公司包括跟其他人形机器人公司做很多交流。我们基本不说一两周,可能一个月至少有一个线上会议,跟英伟达硅谷的相关研发去做沟通。底层逻辑还是希望就是他们的GPU生态、板卡能够做起来。所以我觉得英伟达现在做的事情可能更多的还是大脑本体和偏软的一些东西,类似CUDA,更多是大脑本体当中的一些神经元组件。对具体大脑的思想是我们的高校,包括一些像OpenAI、像王鹤老师这里在做的这些事情。
田野:如果我们是想抓任何物体包括各种形状的杯子,甚至是一些形状很诡异的杯子,我们其实需要包括数据层面、训练层面的优化。比如说我们在训练策略的时候,不光通过模仿学习来得到各种各样不同的数据,其实也需要有一种办法发现当前它的弱点是什么。如果我们知道它的弱点,我们就可以定向的去生成一些它可能并不擅长的东西。那他的能力也就可以像我们课程学习一样变得越来越强。
是否能生成这样的一个东西就涉及到我们刚才说的世界模型,比如之前大家可能会经常说Sora像是一个世界模型?其实如果我们严格的看世界模型的定义,它并不是世界模型。从强化学习的角度看,世界模型的定义就是如果我们输入一个当前状态,然后我们输出可以干预的,比如说action之后,世界模型的目的就是去预测状态转移,就是它下一步的新状态。那对Sora来说,因为它没办法直接明确的去干预这个形式,所以说它并不符合我们严格定义的世界模型。但是他之后有一些工作,比如Pandora一定程度上是做到了我们刚才所说的这个事情。
但如果我们想把这样一个模型用在机器人上,像这种基于纯视觉的方案其实是不ok的。原因在于机器人主要考虑的是运动学,比如说这个东西我们有没有拿住,并不管我们具体是怎样拿上的。如果我们要考虑我们能把它握起来,我们要考虑的更多是像是动力学这样的东西,比如重力、摩擦力、机械手关节扭矩,如果为了达到这一点的话,其实对于机器人来说,它的世界模型不需要我们说的像Sora这样的世界模型那么通用。他可能不需要在各种各样的场景都可以work很好,需要在一个具体的特定的场景能work的很好,能模拟具体特定的场景规律其实就ok了。第二,希望世界模型是可以和我们已经有的这种基于规则,基于symbolic simulation可以做到一个有机的结合。不同的模型做自己擅长的事情。基于此的话,我们认为可以是让我们训练出更好更棒的中层策略。
DK:我重点想说对行业和创业公司的影响。我们看到影响主要是两个方向:一个其实是带来挺多挑战,另外一个当然是比较强的赋能。
先说偏负向的。这个为什么说是一定的挑战?我给大家分享2023年现象。23年因为是在大模型领域创业非常繁荣,技术迭代很快,我们当时创投行业有一个现象:创业公司BP改的还不如大模型升级的快。投资人的投研分析报告也不如大模型升级的快。其实对于整个创业生态来说,每一次升级都带来了巨大的影响。如果英伟达下场做更多具身智能方向的模型或者专利,这些可能也会对行业带来一些类似的调整,会让基础设施和应用层面两边的界限会越来越模糊。
更深层次的影响是什么?很多机器人的创业公司的竞争也会变得更激烈。因为整个研发门槛大幅拉低了,可能对于机器人类的创业公司和人形通用的创业公司的壁垒要求更高了,要求公司自己更专注,对场景的理解更深、迭代更快,而数据的处理能力更高效,这样才有可能让机器人的创业公司能比较激烈的竞争中继续向前发展。
另外一方面,我们也看到很多积极的方向。这里边最积极的方向其实是一个对行业的整体全面赋能。概括的讲,英伟达入场,提供所谓的三件套其实是很大的拉低了研发门槛。让一些小团队用更小的资源,就可以做创新尝试。这里边展开来看,主要是三个核心元素:第一个就是英伟达的工具平台,也是挺长时间的一个事情,但是这次是有了一个巨大的升级。Isaac里面包括了感知、控制等等模块。如果比较粗略的类比,其实是有点类似Quda,商业公司可以在这个工具平台上基于自己的硬件整体的形态和需求做创新尝试,这是第一块——工具平台;第二块是最近新发了GR00T,是一个所谓的机器人通用模型。当然从英伟达的角度,目前看起来更多的是一个示例,也是一个抛砖引玉的逻辑;第三也是发了一款新的应用于机器人领域的新的计算平台Jetson Thor。所以从这三个要素来看整体上英伟达入局对行业可能是一个正向的赋能作用。那有了这三个层面的基础设施,对机器人创业公司来说,团队是可以很容易做研发产品设计的。如果再往下看,英伟达持续投入下整个通用人形机器人的行业基础设施会更加的完善,那么整个相关的技术迭代也会更快。
目前看像英伟达这样做偏算力、偏基础实施、偏工具链的其实相对还是比较少了,但是我们国内确实有很多创业公司自己能力比较强的,其实是在自己综合性的做全栈研发,包括整个通用的大脑和小脑一体化的机器人大模型。然后还有一些具体的执行模块,不管是腿还是手,其实有一些自己研发。也有一些垂类公司做某个行业深度探索。国内可能现在做像英伟达这样的平台类的公司确实目前还没有见到。
第二个问题可能更多的是人形通用机器人公司自己的核心竞争力。在整个后续空间智能行业会持续往前快速迭代的情况下,作为创业公司,核心壁垒核心迭代是什么?我们经常讲说要有业务飞轮。其实在机器人领域也有一个比较适用的,是数据、模型和场景。只有这三件事情快速迭代起来之后,其实对一个创业公司来说,才能找到自己的核心壁垒。那这样才能在整个行业一个不断变化过程中,最终找到自己的一个比较核心的位置。
丁宁:人脑和人形到底哪个更重要,我觉得这两者可能都有互动。因为我们最终目的是让机器理解这个物理世界。所以说我个人认为世界模型其实是一个目的。它越接近这个物理世界的实际情况、结构越完整,在执行任务或者做决策的时候就更加有效,那么具身可能是一种方法之一。那么拥有自己身体来认知世界,自己身体也是一个约束,这个认识也是有边界的,那么可能还有其他的种方式去扩展认识的过程。甚至是这个人类也是一样,先有与自己的身体交互,有些体会了之后可能还会上升到这个纯逻辑的层面,甚至再到更高的层次去理解这个外部的世界,甚至构建起一个这个哲学体系去描述。这是一步步来的,其实是一种方法。
这个身体形态是不是一定要人形,这个倒也不一定。这个身体就是一个跟外部世界互动的一个过程,需要身体获取信息或者数据更完整。打个比方,我如果说只有一个眼睛,那照片拍的再完整、再清晰,也拍不出来重力系统在什么地方,但所有的物质或者物体它都跟重力有关系,甚至它的形态,它的属性都跟重力有关系。刚才讲的杯子能抓取它是一方面,你理解它的跟重力之间的关系,就在操作这个杯子的时候可能那就会发挥作用。所以说你对于物理世界的理解过程是要有一个身体去交互、试错,没办法描述它是一个重力或者一个公式。同样摩擦力、材料的属性温度甚至是空气存在,有的时候是看不见的。那么你怎么去通过自己的身体去交互,理解到他的存在并且理解他的规律,以及在要做的事情之间会起到什么样的一个因素,是正向的还是负向的,是要绕过去还是要利用它,这样的话它就更加完整形态。
人形有非常好的这个优势,它的能力结构是相对完整的,它有移动也有操作,但是它的能力的边界也很明确,还是相对平庸,从物理操作这个范围还是比较窄的。那么人在利用自己自己的身体去认知过程,去认知物理世界的过程和执行更复杂的任务过程,它发展出来的能力是创造工具和使用工具。打个比方,刚才讲的杯子的目的是装液体,假设他现在手边没有杯子,他要把水给盛起来,他要怎么办?他要想办法用手给他变成像一个杯子的功能,并且这样的话去舀这个水,这就是理解了物理过程再来去操作自己的身体也好,操作一个工具也好,最终解解决这个解决任务。所以刚才讲的我觉得具身不仅仅是对于小脑部分操作、控制的效率提升。对于大脑这个部分,我觉得是对现有ChatGPT大语言模型的要把它修正的更加完整,更逼近理想的世界模型。之前的基于语言,理解比较侧重于逻辑层面。刚才讲我们想要去射门,想要去游泳,你看100遍视频也不行,还是要上场去体验一下。你给小孩讲一个苹果,你看多少种苹果的图片?这个还不如就是拿起来要去啃一口,你才能知道更多维的内容。其实这个是对余大脑部分的发育,提升机器人认知理解价值更大。
再往前推远一点,比如普遍认为未来对人类社会有很大冲击,我们最关注的就是机器人理不理解生命?尊不尊重生命,有没有生命的概念?如果没有一个自己的身体,可能这种概念就比较片面。这个时候推演的一些结果,在做一些决策的时候,我如果不教他的话,他能不能做出一个符合人文主义的行为。所以具身让机器人理解更加的完整。小脑部分,我也举个例子,就跟刚才讲杯子的事情,这里面也有物理常识的一个构建。比如说小孩拿一个重的物体的时候,他也知道他不会伸着一个手去拿一个物体,这样的话力臂比较长,关节累。他也会知道离身体近一点会稍微轻松一点。这反映了身体对于物理量的感受自然形成的行为。底层支撑就是一些常识,这个不用编程,在他的动作习惯里面或者叫肌肉记忆。在做决策的时候可以把这样一些局部的小脑反应,或者是一些小的动作组合起来,完成一个更合理的更有效的执行过程。所以这两者其实都是基于通过身体来理解更完整的物理世界。不见得那么完整,但是跟人你有人的身体的时候,你跟人的理解也就差不多了。假设你现在有个非常强大的身体形态不一定像是人形,他的感受能力也比人超出很多,那他理解的就也会超出这个人类理解的边界。我们现在不用去探讨那么多,但至少人类它是怎么感受和理解的,包括他的日常的作业习惯、工具的设计。这个时候更接近人的行为习惯就已经更好了。那么再推演一点,因为刚才王鹤老师也讲了一个非常关键一点,我们要把具身能力构建更完整的。除了人形,作为一个采集数据载体还需要其他的类型的机器人都是数据的接口,可能其他的装备不一定是机器人,只要有跟外部世界互动的过程,互动的过程产生数据,也可能都是为未来为具身提供数据支撑的素材。比如说洗衣机是跟流体跟复杂柔性的衣物互动的过程。没准的话,互动过程采集的物理数据,比你手洗衣服的话要更加到位,它可以甚至还更远一点,那么它的提供的物理的理解可能也有助于让机器能够做得更好。
王鹤:世界范围内,真正的机器人的存量,或者是在用智能而不是反复重播一个轨迹的机器人的存量其实是极其之低的。也就是具身智能,而非基于规则驱动的机器人现在的存量是极其之低的,所以它回收的数据量目前是非常有限的。在这种情况下,我们可能不论是从学术上还是从商业上,对小脑的这个发展给予足够高的容忍度,让它能够慢慢发展起来。不要以为就是身体出来了。我们现在看到特斯拉、宇树包括我们的人形机器人,是不是这个身体在了,是不是说今天就能够进家里头给我们干活?那不能的,特别是小脑的能力其实是还是差得远的。所以从这件事情上,如果我现在已经有一个特别强的小脑能力了,但是它是不是很贵,它是不是无法商业化,那这个假设的前提是不存在的。而我们其实要讲的是它的另外的一个反面,就是说在当下的这个具身智能通用机器人从0到1的,我们要在技术上重点突破什么;怎么商业化,产业化这两个问题。
从目前具身智能发展的特点来讲,具身智能机器人一定要解决足够的泛化性。那么这一点是它区别于原来在车厂里头像陈总讲的这种涂装、焊接,靠规则轨迹重放去做的这些机械臂。但泛化又不能是说什么东西我都能做,他一定要挑几个技能先进行泛化。从目前世界的主流的攻坚的选择上来看,目前在mobile pick and place。这件事情上得到了很多团队一致的认可,像谷歌的RT系列,RT-1,就是做一机器人的泛化移动、抓取放置。我觉得我们要把它先做成一个大模型,就是我讲的它是一个小脑大模型,它能够在任何的一个环境里头,不论是就是这个超市还是药店还是工厂、车厂,都能够按照指令正确的抓取物体,移动到先是移动到货架或者是场景当中适合抓取的位置,然后成功的抓取物体,最后把它放置在正确的货架或者是其他的位置上,那么移动抓取放置的大模型就能将我们目前的具身智能推向足够多的场景了。别看它就这个三个东西的一个组合,但是我们想零售、上货下货,就是包括餐饮拿盘子送餐,包括酒店、工厂去现编取料、冲压、转运等等,它都是被这样的一个技能够涵盖的。
那么这样的一个技能,它也得需要是一个大模型,原因是它需要对场景充分的泛化,它的视觉来引导它机器人动作的这种泛化。所以如果它是个小模型,你很难想象他在任何场景,还work、还泛化,那这样的一个移动、抓取、放置的小脑大模型正是我们团队和银河通用我们一起目前在重点攻坚的技术。我们认为就是这一项技术通过合成数据去进行推动在指定的场景里收集数据的闭环,应当能在未来的1到2年时间内,像ChatGPT一代一代的去训练去加强一样,获得有一个足够泛化能力,成功率接近99%的一个小脑大模型。它将配合一个能够承载这样能力的本体,上肢是比较仿人的双臂、双手、眼睛甚至是360度的;那么下半身,目前看产业的需求,腿也不是第一选择。所以我们是一个可以跪下来,两条腿并成一条腿,那么它不需要有平衡问题,底下是一个轮盘的设计,让它能够以足够低的制造成本、足够高的稳定性,在这些场景中泛化,去干活。那么我相信这一套技术在未来1到2年就会在商业环境里出现。大面积的铺开可能是未来2到3年可以期待的。
田野:机器人能使用工具其实是能很大的程度上提升通用性和泛化性。我们举个例子,首先说我们认为这种大语言模型或者说人脑其实是有擅长的地方和有他不擅长的地方。比如,说像GPT3.5刚出来的时候数学计算能力很差。那我们会发现当前的GPT4或者一些闭源模型,数学计算能力是有了一个显著的提升。原因在哪?原因在于原来大模型next token prediction这个形式就不适于计算。而现在大模型可能会调用一些外部的计算器,可能会写一些代码来去执行,然后再拿回结果。通过这一系列的工具的使用,我们其实发现可以很大的程度上填补计算能力不足。
那对于我们具身智能机器人其实是一样的,就比如说我们在居家的场景,每个人的家里都不一样。我们把机器人放在这里,他肯定很大概率会遇到一些东西,它识别不出来,他可能大概率去遇到一些人类的指令,比如说做某一道菜,它是不会做的。但是如果我们的这个机器人,它拥有了人脑的这种一些调用工具的能力。举个例子,他不会做的菜,它可以去网上去搜,它识别不出来的东西,它可以调用其他的一些更好的一些模型,或者说也去用这种方式去搜。可能效率会变低,可能速度会变慢,但最终能做出完成。同样的话,人脑我们可以做反思。那在我们作为一个比如说长序列任务的时候,我们可能很多地方都会出错。这种情况下,在工厂的话,我们不能这样去等。但如果我们在居家场景,人可以通过这种反思的能力,基于之前的错误总结,解决新问题。
DK:我们看到的人形机器人领域,投资目前其实可以说是百人大战。甚至从创业公司的角度。它的热度上是超过了大模型的。
从三个点上来看事情:第一个,就是说这个百人大战其实是体现在这个两个维度上:第一个维度是说本体形态上,现在我们可以说是百花齐放。轮式的、足式的、灵巧手、多指、指夹、软体等等,不一而足,就我们见到了非常丰富的形态。此外,就是整个模型类型也是非常多样化的,比如刚才大家提的叫做大脑、小脑,肢体控制、视觉泛化、游戏操作场景。
第二,从地域上看,目前确实还是中美引领全球。中美相关的机器人包括人形机器人的创业公司、大厂占到了全球最大。美国上,其实它是代表性的公司更多,包括figure 01等等,声量更大一点。但是其实数量上中国是更多的。一个不完整的统计显示过去18个月中国在人形机器人方面的投资是接近50笔。
第三大点是一个最近重要的一个旗帜性的事情。就是前段时间李飞飞博士官宣了她的新创业项目叫空间智能,包括物理引擎操控等等。更多的信息还没有披露出来。比较明确的就是重点也是解决大模型在物理空间的理解能力和操控能力。这个方向是非常对的。那如果我们回看上一代AI,李飞飞博士对行业最巨大的贡献是整个ImageNet。ImageNet是给上一波AI领域是奠定了非常坚实的数据基础,是上一波数据AI非常核心的研究工作。那这一次到了这个三维空间智能,我们看到李飞飞博士也是亲自下场,看起来也是要做一些更基础性的工作。那我相信在她的带领下,后面对整个具身智能会有很大推动作用。另一方面,李飞飞她的影响力还是比较强的。我相信对于学术和产业侧都会产生很强的带动。会有更多的人和资源投入到这个行业上来。这样的情况下,综合前面整个三点,我相信这个投资热度可能还是会持续很长一段时间。我们也非常期待这些优秀的公司能在技术和产品上持续给我们带来更多的惊喜。
陈立:如果面向未来特别是家庭普通消费者的话,具身智能至少需要5到10年甚至会比10年更久。因为家庭场景的不确定性非常高,任务的复杂程度也是非常高的,以及每个个体对于人工智能和机器人的理解还有接受程度以及他们完成任务的满意程度其实都是不一样的,所以相当于是评价体系是不一样的。肯定是工业场景会更快落地。从今年开始已经在逐步的去做工业场景的落地。我预估的话,工业场景在3到7年是批量化的节点。
在原来这个大模型没有出来之前,机器人在工厂里面已经用了很多了。举个例子,汽车关键制造包含冲压到涂装、焊接、再到最后的总装四个工艺流程。其实前几个车间基本都是工业机器人和非标自动化的设备在起作用,是传统的像工业自动化这个体系当中可以解决的任务,比如说像固定搬运,固定点位的焊接、喷涂,相对来说是固定范式的,其实不太具备泛化能力。但是等到最后一步,就是在总装这个过程当中,大家就会发现,汽车就会面临各种各样的安装和调试的工作种类,要求就会比之前的几个车间都会高很多,很难用非标自动化设备和工业机械臂来实现。如果要实现的话,它整个工序就会变得非常之复杂,就是它其实理论上也是可以实现的,把所有整装的过程当中每个零部件安装和调试都拆的非常散,它的整个经济价值和效率反倒是降低的。那这也因为这个原因就是现在这个环节还是基本以人工来做安装,因为它的复杂程度太高了,然后任务的这个种类也太多了,对然后很难用自动化设备来做。包括马斯克这个特斯拉,主打的场景也是偏工业这个场景。原因还是说机器人小脑这一块还不是很完善。其实我觉得面对纯C端的场景,目前大脑可能也没完全准备好。在这种情况下,社会面对这个非常关注,资本圈也比较火热的情况下,工业场景率先去落地形成。一个正常的技术投入产出比我觉得是一个非常好的路径。
汽车行业,特别是整车制造这个行业可能大家现在都在关注。实际我觉得这个场景还太小了,对于人形机器人来说,因为这是中国的整车厂其实是数得出来的。但是我们真正要关注的是广大的制造业工厂,比如说在长三角、珠三角、京津冀,包括中西部这些地区例如重庆、成都。我与家电类企业做过蛮多沟通,比如像公牛电器、方太、美的、海尔,他们现在整个生产过程,特别是装配和调试这个过程其实是靠人工去堆出来的。如果有机会去参观他们产线,你会发现其实在最后装配这一环节自动化程度并不高。原因我刚才已经讲过了,跟汽车其实是类似的,就是用这个非标自动化设备去装也可以,但是会把工序要拆得非常之散。
所以这种情况下,如果用人形机器人在这种场景和行业快速去落地的话,其实是事半功倍的效果。在短期内最近两三年,现有的这个机器人的小脑和大脑是完全hold得住的。所以我觉得工业场景先行。在工业场景打通之后,形成正向的利润和现金流的之后,逐步可以往家庭场景去转换。因为归根结底的话就是To C的家庭场景体量肯定是最大的。其实大家可以考虑一下,就是等到当这个人形机器人和具身智能到了能够在家庭使用的情况下,基本就是每个家庭都会去买。市场是另外一个汽车行业,体量是非常客观的。
田野:两家企业都是OpenAI投资的,也都是引入了OpenAI大模型。接入后,我们可以看到他们的能力是有一个很大的提升。因为两个demo有些层面是比较类似的,所以我们就以Figure 01来举例。今年3月份发了一个大家认为非常惊艳的demo。在这个demo里,一个人和一个机器人是通过这种自然语言去交互。人会给出一个命令,比如说我饿了,你帮我拿一点吃的。机器人在接受到命令之后,它会通过一种基于物理世界的推断,比如说我当前的桌面上只有一个苹果,它是唯一的食物,他就会把苹果拿起来递给人。那从这个demo中我们看到了什么?首先,接入GPT以后,机器人拥有了一个上层的包括交互能力、包括推断能力等一系列能力。其次,我们也会发现,在做具体操作的过程中,执行是非常流畅和顺滑的,也就是我们认为它其实是有一个相对比较好的一个小脑来做出这样一系列操作。对于Figure 01来说也是类似的。我们可以看到最近一些demo可能是更涉及到多智能体,也就是说在同一个房间里可能有不同的机器人。如果他们要做同一个任务的话,比如说收拾这个房间,他们可能每个机器人会有不同的分工,你去拿桌子,我去擦擦椅子。
当前机器人的小脑其实是没有大脑发达,在之前可能小脑和大脑都不那么发达的时候,可能很多事情包括像家务是做不了。但现在当他们接入了大模型,大脑有了一定的飞跃,那这种情况下就可以做到家务等之前很多完全看不了的事情。比如说我们刚刚提到的语音交互,我们人给机器人的指令,它并不是一个非常详细的去做一个具体的事情,而是有可能是一个相对比较抽象的事情,比如我饿了、我渴了、衣服脏了。这种情况下我们是期待机器人有一个正常的回复、给出一些正常的动作。
然后对于我们居家场景的话,我们会发现,除了像扫地这样的任务,机器人还会遇到一些非常长序列的事情。比如说我们做一个沙拉,你要先拿菜,你要洗菜也要切菜,也要组合。这种情况下,如果小脑并没有做的那么好,很多情况下都会发生失败。对于一个传统的,比如说工业机器人,失败了它就是失败了。但是如果对于我们一个有了一个比较发达的大脑的机器人其实可以做出something different。比如说它在失败的情况下,它可以根据我失败的这样的一个状态,以及人类的反馈,或者环境反馈,可以知道怎么去提升自己,第二次做就不会失败了。这种情况下,对于这种程序的任务有了一个完全更好的能力。
王鹤:首先,我就讲这个第一点,跟过去的传统机器人,具身智能最大的不同就来源于它的泛化性。刚前面宇树陈总也讲到,以车厂总装的工业线为例,能不能上工业机械臂,每一个事都给写成规则,不是不能,而是由于干的事太细碎太柔性,全都是大机械臂,每一个一道流程的成本和所耗的时间划不来,无法让这样的一个商业模式真的成立。
那么具身智能的泛化性在这个时候就能够体现出来。就用你刚刚举的扫地机器人的例子,其实扫地机器人虽然没有具身智能,但是它很泛化。我们看它能在你家扫地,也能在我家扫地,因为它做的事情就很简单,做了2D建图以后就在场景里头做二维扫描平面,来回清扫来回拖,这件事其实是置之四海而皆准的清扫的策略。那么换到三维空间,它难度就变大了很多。
就是具身智能,它要随机应变,要去根据情况去抓取、去放置,包括下半身去配合上半身的抓取、放置、避障。那么一旦能够具身智能达到这种充分的泛化性以后,我们就可以期待扫地机器人进化为讲叫开箱即用的机器人,它的商业模式就完全成立了。比如说我们把这个机器人放到药店,它在对接了整个药店里头的货品信息以后,你可以立即对它进行下单,它就在药店里头把药给你取下来,然后递给快递员,这就是一个典型的夜间值守。那么从夜间值守还到能到白天去上货,去盘货是不是有临期过期的,甚至搭载了大语言大模型以后还可以引导这个顾客去选购。
那么在工厂里,同样的,在一个五米的范围内,比如说美团闪电仓、车厂里头的线边都是密密麻麻的人,六七十个人。在车厂里头就做,从货架上把料取下来,零件取下来,放到AGV小车拉走的这件事情。如果我们能用泛化的通用机器人去干,它不是击穿一个车厂,它是击穿整个行业的车厂的线边料库。所以它能得到极大的规模化的使用,那么就能迅速的把具身智能脱离原来机器人这种项目制的问题。项目制下,需要专门研究一套解决方案,派人去调试、交付。未来那么我们真的能做到极少的现场调试,做到像现在扫地机器人一样放下就能用的水平。
那么背后到底对我们现在的劳动力市场会不会构成一个冲击?我的看法是恰恰是不会。因为今天我们看到中国的劳动力并不是供过于求的。反而是在大量的一线车厂请工难、用工难,而且工人的流动性特别强,大家不愿意干这个活。我本身可以三班倒的来保证我的产量产能,但我能请到两班倒的人就差不多了。还有一到春节他们就走了,工厂这段时间就几乎得停摆的各种问题。所以我觉得就是这些低端的劳动密集型的产业,把车厂里头的焊装,涂装、冲压这三大工艺完成自动化,对中国只能是一个新智生产力,那么让大家共同去走向更高附加值的产业,而不会对我们劳动力市场产生冲击。所以这一点,我也是非常乐于看到在未来几年,如果中国在大家的协力下能做到这一点的话,必将迎来我们在这个电动汽车之后的下一个重要的产业革命。
DK:我们的预期整体上是机器人有可能走向千家万户,在家里面做一些简单的家务,甚至一些负载,同时它又是一个非常有灵魂的机器人能提供情绪价值。所以其实泛泛的讲,我们确实看到去到家里是一个很大的市场空间。当然这里边我想稍微先抽象一下,就是我们对整个人形机器人未来场景的抽象性预期,我觉得这里面有三个原则。
第一个,机器人去做的事情最后的效率是高于人体本身的。效率包括资源投入、任务完成度、或者它的能耗等等各方面。
第二点,其实我们是预期人形机器人是能做一些人类做不了事情。这里边我们可以举一个例子,飞行这件事情,我们知道人类其实在飞行这件事情的探索也是长达将近2000年的时间。那现在整个飞行的能力已经是远远超越一般的生物,我们可以在平流层万米高空水平,大家平常的客机也基本都能接近这个水平,其实已经远远超越了大多数生物。我们回过来去看,最开始莱特兄弟年代在做飞机的时候,大家在干什么,在试图去模仿鸟类。用这个翅膀去扇动,做一个大的机械的翅膀去扇动。所以今天我们的飞机是什么?我们的飞机是轮式,起落架是固定的,翅膀是发动机驱动等等。这个已经给了我们一个很好的例子是什么?就当我们讨论这个人形机器人的时候,是不是人形肯定不重要的,因为这个背后真正的第一性原理,其实是空气动力学,而不是人形这个东西。回到这个第一性原理,其实我们看到整个机器人这里边的原第一性原理是什么?是这个视觉的泛化能力,操作能力的灵活度,还有视觉和肢体的协同配合能力。
第三点就是机器人本身一定是可以规模化量产且规模化部署应用。比如说,如果走进千家万户,如果像人形机器人现在覆盖的这些场景,如果说到每个家还要再去建一次模,再把家里所有的东西都看一遍才能操作,这个事情肯定是不可规模化的。所以人形机器人如果要走进家庭,那机器人本身的软硬件一定是可以规模化量产的。
如果是走进千家万户的话,那其实成为一个人类的这个终极的这个伙伴,不管提供服务还是投资价值,这确实是一个可以想见的万亿空间。
丁宁:这次大模型的技术路线的突破,让我们对机器人的未来可行性给予了非常高的期待。落脚点确实就是在通用性。以前的这个做法都是具体问题具体分析,包括机器学习模型也是一样,数据覆盖包括建模的能力就不够。那么现在通用之后,他把场景全部拉通了之后,包括他的认知能力的拉通和身体能力的这个拉通了之后,他确实就可以具备这种让这个通用性是具备可能的。
只是一款或者某种类型的通用型机器人可能还不够。我们其实要的是机器人的这种能力。这所谓的机器人,其实际上我们认为只是一种方法论,它就利用物理规则,那么帮助人类去解决不同尺度,不同场景的物质,物资的重组物质的搬运的这样一个过程组合成产品组成器件完成一系列的工作,这个时候你可以用很多种物理规则组合成某种工具或者某种形态去完成这个事情。那么背后的认知能力的提升,让这个过程的话更加有效,更加的精准,更加的这个符合人的期望。其实是这么一个过程。通用的能力的解决,那就真正能够让我们进入到机器人的时代。
那么机器人时代的作业体系是由通用型机器人和专用型机器人相互配合的。比重是谁多一点,谁少点?估计是通用型机器人更多,因为它可以标准化,可以更适宜量产。那么专用型机器人也少不了。它在一些特定问题上能够做的更好,你比如说你两只手洗衣服你再洗的再好也洗不过洗衣机,你想在墙上打洞,你肯定要拿个工具去打,或者拿手指头去转,所以这种配合协同的关系是必然的,那么底层是这两类的设备之间的协同的过程和协同能力。
有一个具身作为底座,提供对物理世界常识的共同的理解和认知,协同起来效率更高,然后协同和认知过程就更加的完善,就达到期待的结果。举个例子,就还是一个所谓通用能力的人。比如说我原来我们老家街道上有一个裁缝,这个裁缝是个残疾人,手指头不完整,腿脚也不灵活。你要知道残疾人做裁缝是做的非常好的,他其实最主要就是他的认知,他的脑袋没有问题,他用有限的手指也能完成很精细的活。那么意思就是说这种认知能力的通用性也能弥补身体的不足,那么最后完成一个结果。那么这里面的话,我相信就是带来的对社会整个生产力提升,包括我们生活生产品质提升可能带来的益处更多。
那么至于风险,其实我们现在机器人跟人的这种关系这个话题都已经讨论100年了。我相信很多人都在从各个维度不同的角度去思考这种风险。既然能想到,那么应该都有一些心理准备吧。那么相应的这个措施应该都有些准备。其实最大的风险是在于所有的人都没想到的这个问题。那随着事情往前演进,交互的过程越来越频繁,可能会有更深入的思考并把风险尽可能暴露出来,我们也需要做好提前准备。
文章来源于“腾讯研究院”,作者“腾讯研究院”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/