2024 年,人形机器人领域迎来爆发式增长。特斯拉 Optimus 的持续迭代、OpenAI 对 1X 的战略投资,众多初创公司异军突起,以及包括 Mobile ALOHA 在内学术界的不断创新,共同描绘出一幅激动人心的未来图景。
技术进步的浪潮固然令人振奋,但保持清醒和冷静,在开放探索的基础上,审慎选择最符合时代需求和技术发展规律的路径,才是引领人形机器人走向成熟的关键。
本期机器之心《智者访谈》邀请到清华大学自动化系研究员、机器人控制实验室主任赵明国教授,从运动控制的视角看人形机器人发展。赵明国教授在机器人控制领域有二十多年的研究与实践,他认为当前人形机器人领域呈现出如春秋战国般多元化的发展态势,这既是蓬勃发展的象征,也潜藏着方向迷失的风险。
赵明国教授强调,「智能人形机器人」不能只是「智能」和「人形机器人」的简单叠加,而应当是一个全新的研究主题和技术范畴,需要机器人学和人工智能两个领域更深层次的融合,制造能够在复杂环境中自主适应和学习的智能体。
对大模型技术在机器人控制领域的应用,赵教授认为单纯依赖「大脑」解决运动控制问题并不合理。人类的运动控制是一个复杂的多层次系统,涉及本体反射、中枢控制和大脑控制等多个层面。我们需要更深入地研究生物系统的运动控制机理,重新思考机器人控制系统的架构,并探索更有效的学习和优化方法。
赵教授主张技术的先进性并不等同于实用性,只有与时代需求和经济发展相匹配的技术,才能真正落地生根,开花结果。例如,维纳控制论中的很多思想因为过于超前而未能对早期的计算机和人工智能起到重大的推动作用。
那么,究竟什么样的技术路线才能最终胜出?人形机器人的未来又将如何演变?点击观看视频,让我们一同探索。
机器之心:赵明国教授好,非常高兴您做客机器之心的《智者访谈》。近年来,随着具身智能和大语言模型的迅速发展,公众对于如何实现智能机器人的讨论热度空前。今天我们很高兴能与您从运动控制的视角探讨人形机器人的发展前景。
谈及人形机器人,人们往往会联想到几家著名企业,比如专注于机器人运动控制和硬件设计的波士顿动力,以及凭借在人工智能和大数据方面的优势进军人形机器人领域的特斯拉。
赵明国:事实上,在波士顿动力之前,日本本田公司就已经在人形机器人领域做出了开创性的贡献。波士顿动力主要专注于提升机器人的运动控制能力,而特斯拉则依托其在自动驾驶技术和先进器件方面的优势,更多从制造业和供应链的角度切入,为人形机器人的发展带来了全新的思路。这种方法让许多人认为,如果未来机器人要实现大规模应用,特斯拉的路线可能更符合当前技术发展的趋势,因此也有不少企业选择追随特斯拉的发展路径。
然而,这并不意味着波士顿动力或本田的技术路线就失去了重要性。我认为这些不同路线都有其价值,因为技术的进步是一个渐进的过程,需要一代又一代的积累和发展。除了企业的努力,学术界也在不断提出新的理论和方法。目前,许多公司,包括一些创业团队,正在尝试将学术界的研究成果与本田、波士顿动力和特斯拉等公司的技术应用相结合,探索新的发展方向。
当前人形机器人领域的发展状况,可以比作春秋战国时期,虽然存在几个主流的技术路线,但更多呈现出百花齐放的局面。
机器之心:众所周知,运动控制是建立在明确的运动学和力学原理基础之上,在数学和工程方面具有严谨性。相比之下,人工智能具备自适应和自学习能力,尤其在处理复杂问题时,AI 常能发现人类难以想到的解决方案。然而,这种特性也带来了可解释性的挑战。
波士顿动力的机器人在运动控制方面表现卓越,同时也展现了高度的智能。例如,配备机械臂的 Spot 机器人在物体识别和抓取方面表现出色。另一方面,以 AI 技术见长的特斯拉在硬件领域也投入了大量资源。您一直强调将运动控制与人工智能相结合的重要性,在发展人形机器人方面,我们可以从这些公司的实践中获得哪些启示?
赵明国:人形机器人与人工智能的结合可以采取多种方式。其中一种是两个领域各自发展,然后将各自的优势整合。但除此之外,还存在其他途径。以波士顿动力为例,他们曾强调专注于运动控制而不涉足人工智能,但实际上他们也运用了一些智能的方法。不过,他们的核心在于解决运动控制问题,如行走、奔跑和跳跃等,只不过在解决这些问题时,他们采用的方法可以是传统的运动控制技术,也可以是智能的方法。
同样,专注于人工智能的公司在解决智能问题时,也会使用机器人作为载体。例如,进行对话交互时,可以选择人形机器人,也可以选择智能音箱,这对智能本身的影响并不显著,核心问题在于能否实现顺畅的人机交互。
然而,要将人工智能与人形机器人真正深度融合,就像「白马非马」这个哲学命题一样,需要创造出一个全新的事物。智能人形机器人必然不同于传统意义上的智能系统,也不同于常规的人形机器人,而是一个更深层次融合后的独立存在。
我认为「具身智能」这个概念较为贴合这种场景。在这种情况下,我们期望机器人能展现出行为层面的智能,不仅能够在各种复杂地形上行走,还能在面对干扰时完成任务,表现出智能化的行为。例如,机器人应该能够避开障碍物,在动态环境中规划路径,比如开门这个典型案例,包括应对不同形状、不同类型的门,同时能制定策略绕过中间的障碍物,或者在有其他人同时开门时做出规避或让步等行为。在手部操作方面,这样的例子更为丰富,因为人类大部分操作都是通过手来完成的。
这是一个全新的研究主题——如何让机器人展现智能。这需要机器人学和人工智能两个领域进行更深层次的融合,而不仅仅是一个领域借用另一个领域的技术来提升自身。我们需要将两者有机结合,创造出一个全新的技术范畴。
机器之心:您的观点非常具有启发性,但似乎目前很少有人从这个角度来探讨这个问题。
赵明国:这实际上取决于不同的视角,我只是试图将问题阐述得更加清晰。无论采用何种方法,要开发出这种新型机器人,我们需要考虑几个关键。
首先是腿部的智能;其次是手部的智能,包括手指和手臂的智能,手臂负责运动,手指负责实际的抓取和操作。在进行手部操作时,腿部通常也在运动,这需要手足协调。除此之外,还有一些全身性的智能,如骑自行车、攀岩,以及前面提到的开门,这些活动强调全身的协调。从运动能力的角度来看,有些智能机器人可能更侧重于腿部功能,有些更注重手部功能,还有一些可能侧重全身运动,也可能是这三个领域的不同组合。
在早期阶段,我认为可以为这三个领域分别选取一些典型案例作为代表,用它们来推动技术发展,并作为标准测试平台。如果一个机器人能够完成特定任务,就意味着相关技术已经取得突破,能够实现某些功能了。我们可以从一个领域开始,逐步扩展到两个,最终实现三个领域的突破,然后再考虑实际应用。
当然,也有团队选择直接从应用需求出发,通过反向推导来进行开发。目前业界还没有形成共识,各种方法都有人在尝试。但从最基本的逻辑看,无非就是这三个领域的不同组合。
机器之心:您在仿人机器人双足步态控制领域拥有 20 余年的研究实践和经验,见证了技术的几代变迁。双足控制一直是机器人研究中的一个难点,您认为目前该领域面临的主要技术瓶颈是什么?
赵明国:这个领域确实经历了一个漫长的发展过程。传统上,研究者倾向于从仿生角度来解决这个问题,但由于仿生机理尚未完全掌握,最初出现的是一些简化模型。这些模型虽与人体某些运动相关,但并不完全相同,它们借鉴了人体生理学的某些特征,如倒立摆模型。这些简化模型虽然维度较低,但在当时的计算机水平下能够实时完成计算,因此在那个时期是较为有效的选择。
我们现在使用的许多方法,如模型预测控制(Model-Predictive Control,MPC)和全身控制(Whole-Body Control,WBC),都源自上世纪。我认为真正的突破在于 MPC,它引入了对未来进行预测这一非常重要的概念。这一点在人工智能领域也很重要,即基于某些知识对未来进行预测,两个领域在这一点上是共通的。
近期,由于强化学习的突破,我们能够在仿真环境中进行强化学习,然后将获得的策略迁移到实体机器人上。这一路径已被证明是可行的,我认为这是一个相当重要的贡献。现在通过强化学习方法,大多数初创团队能在几个月内让机器人完成多种复杂任务,比如运动恢复和粗糙地面行走,这些任务在过去需要大量时间和资源才能攻克。
目前的仿真技术能够支持大部分运动学和动力学的仿真。然而,对于视觉和其他多种传感器的仿真,还无法达到与人类感知相媲美的真实程度。对环境的仿真,尤其是弹性物体的仿真,仍有待改进。如果这些方面能够得到显著提升,这些工具将大大加速整个研发过程。
就人形机器人而言,如果仅关注运动能力,数据获取可能不是特别困难,或者说运动类数据具有其特殊性。我个人认为,小规模数据集可能已经足够。但现在面临的挑战是,究竟需要什么样的小规模数据集?这个问题每个研究者的看法都不尽相同,我认为这在很大程度上取决于具体的任务需求。
2024 年初引发广泛关注的 Mobile ALOHA 项目,没有使用仿真,而是通过遥操作来获取真实场景数据,直接解决了对齐和许多中间环节的技术问题。在这个方向上,研究者会开发出多种方法来快速有效地获取数据,这是一个非常明确的发展趋势。
另一种可能的方向是利用积累的大量视频资源。如果能直接从视频中获得机器人运动控制所需的数据,将会是非常有价值的。举例来说,中学生学习打篮球时,很多人会模仿乔丹或科比,他们通过观看视频来学习,尽管乔丹和科比并未亲自指导他们,他们也没有这些球星的任何详细数据。然而,由于机器的能力水平还无法像人类那样从视频中学习,我们不得不通过仿真或遥操作来获取数据。不过,对于完成人形机器人的某些复杂运动来说,遥操作方法可能与完成简单任务(如刷盘子)还有所不同,需要综合考虑视觉等多个方面。
机器之心:您提到机器的能力还无法像人类那样从视频中学习,具体是指哪些能力呢?
赵明国:我主要指的是处理数据的能力。目前,机器的视觉分析能力还不足以从单目相机拍摄的普通视频中直接分析出人的准确三维坐标,或者将其转换为所需的数据格式。
在人形机器人领域,目前的重点依然是从仿真中获取数据。在仿真的潜力没有被完全挖掘或达到瓶颈之前,研究者肯定会集中精力在仿真方面深入探索。但是,当任务发生变化时,仿真的局限性就会显现出来,而目前又无法直接从视频中获取所需的数据。在这种情况下,像 Mobile ALOHA 使用的方法就非常巧妙,因为它解决了数据获取的难题。然而,如果要让机器人完成诸如踢足球、打篮球或攀岩等复杂运动,遥操作的方法可能就不太适用了。随着研究的不断深入,我相信还会出现许多新的技术手段,最终很可能会发展到能够直接利用视频数据。
体育院校积累了大量运动数据,如何有效利用这些数据也是一个值得探讨的问题。我认为这在很大程度上受到数据采集和分析手段以及算法的影响。但最终的核心问题仍然是如何获得高质量的数据,以及如何有效利用这些数据。这两个问题都在不断发展,但核心逻辑仍然是进行学习和训练,获取数据,然后利用数据进行训练,这两个基本步骤没有改变,但在具体实施细节上会发生许多技术上的变革。目前,技术发展速度非常快,甚至在一周之内就可能产生一些新的突破性结果。
机器之心:您曾提到过工程师在面对数据问题时的思维方式——数据不足就增加传感器,成本受限就减少传感器,这与传统 AI 研究人员的思考方式有很大不同。
赵明国:传统上,运动控制主要依赖于确定性的控制方法,与人工智能的关联并不紧密。然而,当机器人被置于动态环境中时,单纯的控制方法往往难以应对复杂情况。例如,在线的传统控制方法可能不符合生物系统的某些特性。在这种情况下,一个可能的解决方案是引入人工智能,或将人工智能与控制方法相结合。尽管如此,具体的融合方式仍有待探索。
传统上,我们习惯将系统划分为规划、感知和控制等几个模块。近来,端到端网络逐渐流行,这种方法可能实现我们所需的效果。然而,端到端方法下,系统的内部结构可能与我们常规认知中的模块划分不同。尽管它可能依旧包含类似规划、感知、控制的功能,但其划分方式可能与传统方法大相径庭。我认为不应强求 AI 系统的内部结构必须符合传统认知或经验,关键在于它能否有效地解决问题。
我们正处于一个关键的技术变革时期,众多新的技术和方法正在诞生。这些新事物的最终形态以及哪些会得到广泛认可和普及,目前尚难定论。但可以肯定,一些新的关于机器人控制系统的结构必将出现。这可能需要一个交互式的学习过程:一方面,机器在不断学习和进化;另一方面,人类也在观察和学习机器如何解决问题。我们需要学习总结机器的这些方法,并将其提升到方法论的层面,这很可能是一个反复迭代的过程。
然而,有一点是比较明确的:如果要在传统方法的基础上实现突破,你会发现传统方法已经充分利用了可获得的信息。许多现有的解决方案已被证明是最优的,如果不引入更多的传感器,本质上很难超越原有方法的效果,因为这些方法已经达到了极致,并无明显缺陷。除非你改变了问题的定义,在这种情况下,你并非是将原问题解决得更好,而是改变了问题本身。
机器之心:这意味着评判标准都发生了变化。
赵明国:确实如此。许多顶级期刊也在讨论优化控制与学习方法产生的效果之间的差异。结论表明,在某一个确定的问题上,学习的方法并不会比优化方法更好,因为优化是针对一个它可以解决的目标,它一定是做得最好或者最好的之一,但是学习可以构建一个比它更好的优化问题。
对于优化方法而言,你必须明确定义成本函数和约束条件,而且这些条件必须满足特定要求才能求解,因此优化方法的适用范围相对有限。相比之下,学习方法所能学到的策略范围更为广泛。
我认为硬件本身应该引入更多的传感器。我常举的一个典型例子是按开关。在整个过程的前期阶段,这个动作主要依赖视觉,视觉在相当长的一段时间内占据重要地位。但当接近开关时,即使视觉精确到 0.1 毫米也无济于事,此时主要依赖的是触觉。当触觉将开关按到一定程度后,触觉的重要性也随之降低。最终判断开关是否启动,可能需要依靠听觉(听到开关的声响),同时还需要视觉确认灯光的变化。需要指出,这里所需的视觉能力是对光线瞬间变化的感知,与之前在轨迹规划过程中使用的视觉能力有所不同。
因此,对于按开关这样一个看似简单的任务,在整个过程中,涉及各种不同的感官信号,而且其权重是动态变化的。开始阶段主要依赖运动和视觉,中间阶段更多依赖触觉,最后阶段则可能综合运用听觉和另一种形式的视觉感知。这种动态权重分配的机制与人工智能领域的注意力机制有一定相似之处。
目前的控制方法难以处理如此复杂的逻辑。虽然 Transformer 等模型在某种程度上实现了类似的机制,但它们能否在机器人控制领域同样发挥这种作用仍存疑问,这是因为人类的实际操作与机器人的操作之间存在本质差异。
目前大多数机器人系统实现的动作都只是对人类一些基本动作的模拟,而且模拟的范围还比较有限。像 ALOHA 这样的系统很可能是在视觉层面模仿了人类动作的前半部分,在最后阶段还难以做到精确控制。这也是为什么某些看似简单的任务,比如叠衣服,实际上非常具有挑战性,因为它不仅需要视觉信息,还需要触觉和其他感官输入。此外,还需要对「什么状态下衣服算是叠好了」有准确的认知。仅仅依靠手上的摄像头是无法获取所有这些必要信息的。
当前的技术发展主要聚焦于初级阶段,因为仍有 90% 的广阔领域和众多新兴领域尚待开发。但随着研究深入和产业发展,最后那 5% 的难点会变得至关重要。我相信这些硬骨头问题终将浮出水面,而研究人员将逐一解决。不过,诸如刺绣等精细操作,或者将金属加工到极致精密的程度,需要投入更多的精力和成本,但在实际应用中不会立即产生显著回报。因此,短期内这些问题不会特别受关注。然而,一旦主流技术领域发展遇到瓶颈,这些精细化的问题可能迅速成为研究热点,并有可能引发新一轮的技术突破。
机器之心:大模型的出现引发了人工智能界的极大热情,特别是使用 Transformer 架构统一表示文本、音频和图像等不同模态的数据。这种统一框架的思路是否也适用于人形机器人?例如,是否有可能将叠衣服、洗碗、切菜、炒菜等日常任务,以及跑步、踢足球、跨栏、跑酷等运动技能,都整合到一个统一的框架中进行训练?
赵明国:人工智能,尤其是大语言模型和视觉模型,更多是在解决类似于大脑中的思考问题,在逻辑分析和认知规划方面表现出色。虽然将这种逻辑应用于运动控制确实可以解决一些问题,但根据我们对生物学和控制理论的理解,这种方法并不完全适用,也无法全面覆盖。
举例来说,大语言模型基于预先规划所有步骤然后执行的逻辑,这实际上是控制领域上一代的思路。早期的仿生学将仿生系统划分为感知、反馈、规划和决策几个部分。然而,现代生理学研究表明,生物的神经系统在运动控制上具有复杂的层次结构,而目前的大语言模型并未充分反映这一点。
我认为,运动控制可能需要一套独有的结构:从硬件层面看,控制频率极高,需要信号处理和控制领域的专业知识支持;中间层次,如小脑,其频率处于中等水平;而大脑的多模态认知部分频率相对较慢。如何有效地结合这三个层次是一个复杂的问题。简单地将它们拼接在一起是不恰当的。有人提出使用一个大模型模拟大脑,再用另一个大模型模拟小脑,我认为这种方法过于简单化。
人类的神经系统及其他灵长类动物的神经系统都不是这样构建的。如果只通过大脑来控制,效率必然低下。人类的运动控制包括本体反射、中枢控制和大脑控制,而且大部分运动更多依赖于本体和中枢。尽管我们对这方面的认知仍然有限,但基于现有知识,很难认为仅靠大脑模型就能很好地完成所有任务。因此,在神经系统的仿生领域或控制系统架构方面,未来可能会出现更先进的理论或模型,这是非常值得期待的。
作为一名机器人研究者,我特别不希望看到机器人技术被完全否定,而将所有工作都转移到人工智能领域。这样做不仅无法促进机器人技术本身的发展,最终结果也不会令人满意。如果人工智能技术仅仅是渗透到机器人领域,推动机器人产业发展,但机器人行业本身的模式不发生变化,这对机器人领域来说并非好消息。从产业角度来看,这实际上是一种降级。
要实现真正的升级,机器人领域应该结合人工智能的发展,将其作为一种新的模式,同时提高自身的技术水平,进行升级换代,使其与人工智能的发展相匹配。只有这样,才能产生理想的效果,机器人领域的专家才能为人形机器人的发展做出真正的贡献。
机器之心:在构建智能机器人时,我们需要同时考虑底层的运动控制和上层的规划与决策。您认为应如何权衡这两者?
赵明国:现有的技术往往机械地将运动控制和认知决策划分为底层和上层两部分。从机器人研究的角度来看,我们知道人体的神经系统分为大脑、小脑和脊髓三个主要部分,这三部分具有截然不同的功能,并且有明确的功能分区。
大脑不仅包含运动神经系统,还有负责整个神经系统训练的学习功能区。例如,像走路这样的日常动作,实际上并不需要大脑的直接参与。人体在脊髓中有一个称为中枢神经的部分,构成了中枢神经系统。这个系统通过各个关节之间的震荡和相互激励,完成走路等节律性运动。
这些节律性运动甚至不需要小脑的大量参与,在脊髓层面就可以完成,而且控制效果相当出色。然而,当遇到路面障碍物时,视觉系统就需要介入。视觉信号会激发控制系统,引导身体绕开障碍物。生物体能够很好地解决这种既能产生节律性运动,又能产生非节律性受控运动的复杂任务,而现有的机器人系统尚未具备这种能力。我们要么是针对节律性运动进行训练,要么针对非节律性运动进行训练,而且通常以大脑的参与为主,对真实生物系统中的整合过程是完全缺失的。
例如本体反射,当你被火烫到时,感觉系统会立即感知到高温,这种感觉通过脊髓迅速传递给相应的肌肉,导致肌肉立即收缩。肌肉收缩的信号又刺激到相应的关节,使手臂迅速缩回。这种反射不需要经过大脑,动作非常迅速且协调。换言之,在大脑意识到之前,你的手就已经本能地做出了反应。当然,最初的反应可能是朝火源靠近,但经过生物进化,最终形成了远离危险源的反应。随后,这个信号会继续传递到小脑和大脑。大脑意识到烫伤后,如果附近有水源,会指挥手部进行有目的的运动,比如将手浸入水中。这种动作既不属于本体反射,也不是节律性运动,而是大脑发出的有意识决策。
人体经过漫长的进化,形成了自己独特的机制。目前我们对人体生物系统的模拟还很片面,往往是分别模拟各个部分的功能,然后试图将它们整合在一起,这就导致了整体效果显得生硬且难以协调。我认为,如果能更多地向仿生方向靠拢,依据生理学原理来设计控制系统,可能会有所突破。然而,这需要生理学专家能够更清晰地阐释这些机制,然后我们按照这些原理去实现,这本身就是一个极具挑战性的任务。即便机制被完全阐明,实现起来也并非易事。
机器之心:包括机器人的传感器设计也是一个重大挑战。
赵明国:确实如此,传感器的设计也不一定能完全按照人体的方式来实现。我个人倾向于认为,工程师应该把握最基本的机理。首先,有一条上行的信号通道,信号从末梢传感器向上传递到脊髓、小脑和大脑,这个过程需要一定的时间延迟,形成一个动态系统。其次,有一条下行的信号通道,信号在神经系统做出决策后向下传递,这同样是一个动力学系统,两条信号通道都存在一定的时间延迟。同时,相邻的神经系统需要形成局部的回路,包括脊髓回路、小脑回路和大脑回路。这三个回路的特征在目前的控制系统中很少得到完整体现。
不过,随着人工智能和神经网络技术的进步,以及硬件设备的发展,有可能出现更符合仿生特点的系统。目前有许多研究,如类脑控制、类脑 SLAM 等,都在尝试这一方向。虽然这些方法并没有完全按照生物系统的原貌去实现,但它们把握了核心机理,可以利用现有的电子和机电器件,按照信号处理的方式重新构建整个系统,实现全新的架构。我认为在仿生这个方向上还有很大的创新空间,从长远来看,在仿生领域继续深入研究是很有价值的。
机器之心:这个方向与具身智能结合起来,应该能够开拓出广阔的研究空间。
赵明国:没错,这可以作为具身智能研究的一个分支,因为智能本身就包含仿生的方向。我们可以按照现有的技术路线继续深入研究,将细节做得更加深入和透彻。但是,单纯依靠堆积数据和算力是否就足够了?只要能够取得很好的结果,这种方法也并非不可行。我认为研究人员可以从不同角度展开研究,而不是片面否定或过度依赖某一种方法。这就像从不同角度登山,最终都有可能到达山顶。
机器之心:关于人形机器人,目前还没有明确的应用场景。您认为哪些领域或者行业可能率先看到人形机器人走向实际应用?
赵明国:人形机器人应用场景的话题其实已经讨论多年了。不过,我们要区分愿景和现实。就像手机电池,理想情况下大家当然希望不需要充电,但实际购买时还是要考虑成本等多种因素。现在讨论人形机器人的时候,很多人没有明确区分愿景和现实。
就应用场景而言,我认为可能包括工厂、养老、家庭服务、餐饮、接待、危险作业等。但目前还没有哪个场景能够保证立即实现。大家普遍的思路是用机器人替代人类完成现有工作,这自然是必要的。但除此之外,如果人形机器人能够创造新的应用场景,包括那些原本不被重视或并非刚需的场景,因为人形机器人的出现而成为可能,我认为这对人形机器人的发展可能会起到关键作用。
实际上,这个问题可以分为科学问题、技术问题、产品问题和商品问题。人形机器人可能还处于技术问题甚至科学问题阶段,很多基础的问题仍未解决,比如我们前面谈过的智能控制系统架构究竟如何实现,技术还在不停演变和发展,有些问题的解决方案相对明显,但大多数还不明朗,大家都在尝试的过程中。
这时候讨论技术路线该如何实现,是使用 A 路线 B 路线还是 C 路线,或者很多人已经做到商品化,要大规模卖。我觉得我们还处于混沌的状况。
机器之心:在机器人的发展历程中,您能举例说明技术和应用场景是如何相互影响的吗?
赵明国:电机就是一个很好的例子。早期机器人使用的电机与现在有很大不同,例如在 ASIMO 那个时代,典型的电机是空心杯,火星车也用的是空心杯电机,它形状细长,效率很高,占用空间小。随着机器人技术向更高精度、更复杂控制和更高性能的发展,空心杯电机逐渐被无刷直流电机等类型所取代。
电机的设计也在不断变化。例如永磁力矩电机,以前是内转子的,现在用外转子,因为后者气息更大,力钜密度更大,对人形机器人这种移动体来说更实用,而且它还可以把关节做到扁平。这种电机最近几年很多人在做,但其实这些种类早就有,只是应用领域不一样。外转子电机最早用于四旋翼飞行器,后来被应用到人形机器人上,大家突然发现,这其实是明摆着的道理,就应该这样。
这就是技术和产业相匹配的结果,大家会找到一个平衡点。传感器和驱动器也在朝着高度集成的方向发展。这背后有经济规律支持,产业需求和技术在特定时间点一定是匹配的,谁匹配得好,谁就能获得发展,匹配不上的就得不到发展。
这一点在计算机领域的体现更为明显。冯诺依曼架构之所以长期主导,很大程度上是因为它作为一种线性结构,最容易大规模生产,尤其在当时生产制造水平较低的情况下。虽然现在也有很多新的架构出现,但要完全取代冯诺依曼架构依旧困难。
机器人领域目前也处于百花齐放的阶段,要实现大一统,让大家公认某一条路线还很难,但可以肯定的是:谁迎合了社会的需求、生产力的需求,谁就能胜出,而非基于主观愿望,比如「我认为未来人形机器人能进工厂,能进家庭」,但并不是大家都认可现在做就一定能够成功。
我觉得这取决于市场,国家政策也可能起到推动作用,但技术的突破存在不确定性,科学家也无法保证只要给我多少条件,就一定能把技术突破。
有的认知,可能是在形成的过程中,先把战术做起来,最后才会形成战略,并不是说先把所有战略都想清楚了。但是,这背后一定是有规律的。我个人觉得一方面要勇于实干,在市场上积极尝试,另一方面,如果明显在逻辑上有漏洞的东西,可能就少做,或者重要性别放那么高,优先做的一定是你认为更符合逻辑,或者是更容易实现的。这跟时间点也有关,比如说现在大数据、大算力,如今市场环境这些更容易获得,在这上面投入自然更容易出成果。
但这时候如果你非要从事仿生,可能最终仿生就是正确的,但仿生学在 20 年以后胜利,并不意味着现在做仿生就能取得成功,现在从事仿生学研究可能连经费都拿不到,更不用说做出典型案例了。历史上有一个很好的例子,维纳在 MIT 找了两个年轻人,由于计算机最终采用了冯诺依曼架构而非他们的方案,这两个年轻人都郁郁而终,三十几岁就去世了,对此维纳也无能为力。
这并非他们的想法有问题,回过头看,你会发现如今很多概念,比如具身智能、存算一体,智能控制等,维纳在《控制论》中都有提及,除了控制论,他的思想还启发了信息论、系统论。
机器之心:我在《维纳传》里有读到,确实令人惋惜,时代没有准备好。
赵明国:没错,关键在于时间点不对,太过超前了,当时的技术无法支撑,或者说社会还没有相应的需要,因此无法产生经济效益。并不是说这些想法从科学角度看存在问题,而是从应用角度看,它们还不适合当时的环境。我认为可以从不同视角来看。以维纳为例,在科学方面,他毫无疑问是顶级大师,但在产业方面,维纳对产业有启发和引领作用,但他并非实践者。相比之下,冯诺依曼在这两方面都有极高造诣,他未必没有认识到维纳的这些想法,只是他选择了更能产生实际应用的方案。
机器之心:现在仿生学的时代没有到,您认为其中的关键原因是什么?
赵明国:我觉得主要有两方面,一是对生物机理的认知尚不充分,二是相关器件的水平尚未达到要求。仿生学高度依赖物理器件和传感器的水平。当前,我们可以进行仿生学研究,但不应拘泥于完全仿生。现阶段的工程实践可以沿用堆积算力、数据等资源的思路,这是可行的,我也不质疑。不过,我们也可以适度融入一些仿生学的思想,因为生物经过长期自然进化,其结构和功能必然有其合理性和优势。我们要持续深化对这些特性的认知。
就现有的技术手段而言,我认为应该循序渐进。人形机器人是一个长远目标。不能否认,这是人类的终极目标之一。无论是具体的工作还是智能本身,都是我们最终需要解决的问题。但当前能做什么,这是一个技术问题。从现实出发,我的建议是:大型企业和国家队需要攻克这些难题,朝着最终目标迈进。要进入工业应用场景,就需要组建合适的团队。这种大型团队能够在长期内持续进行复杂的规模化的系统性研究。
对于较小的团队,很难在整个系统层面开展复杂的研究。他们可以选择纯学术,或者钻研具体的问题。例如,可以聚焦某个科学问题或工程问题,比如改进电机、优化传感器,或者革新算法。一旦取得突破,大型团队就可以将这些成果整合到他们的系统中发挥重要作用。我认为小型团队没有必要执着于解决工厂机器人或家庭机器人这些宏大课题,甚至说立即将产品推向市场,这可能不符合逻辑。
技术的发展不能脱离社会经济的发展。技术先进并不意味着一定要立即应用,只要技术符合当前需求,就可以投入使用。至于哪种技术能够得到更广泛的应用,取决于总体效益,这与经济规律有关,也可能与人的认知水平有关。历史上,由于某个时期人类认知的局限,可能会犯一些局部性错误,这种情况并不罕见。但从长远看,更先进的技术终将胜出,这符合历史进步的规律。
赵明国,清华大学自动化系研究员、机器人控制实验室主任、清华大学无人系统中心类脑机器人中心主任。发表百余篇论文,授权国家发明专利 10 余项。在人形机器人领域,提出了虚拟斜坡行走方法、广义模型预测控制、全身控制等方法,研究成果获得 RoboCup 人形组亚军等多项国际奖项。在类脑计算领域,利用神经形态技术创建了高性能、高能效的机器人控制系统,成果发表于 Nature 封面,获得 2019 年度中国科学十大进展及「科技创新 2030」计划的资助。
文章来自于微信公众号“机器之心”,作者“闻菲”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md