人人都知大模型时代具身智能大有可为。
但这座连接起大模型和现实物理世界的桥梁,究竟应该如何搭建?
逐际动力联合创始人兼首席运营官张力,在中国AIGC产业峰会上给出思考:
AI代替人去决策,人形机器人代替人去劳动。
本质上,人形机器人应该代替人类,而不是代替工具。未来人形机器人会和iPhone一样,成为一个硬件载体,只要装上对应的APP,它就能替人干活。
为了更完整体现张力的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。
以下为张力演讲全文:
谢谢主持人,也感谢量子位的邀请,非常高兴有这个机会再次在量子位舞台上介绍具身智能机器人。其实具身智能机器人的发展与通用人工智能(AGI)有很大关系,并且也推动了人形机器人的突破。
大家可以看到,在今天AI已经可以代替人去思考、去决策,但是人形机器人还不能代替人去劳动,为什么?
当前来看,人形机器人的硬件稳定性、大脑的决策能力以及小脑的运动控制能力与落地应用还有不少差距,这恰恰是为什么今天看到很多具身智能机器人公司不断往前奔跑。
未来来讲,我们可以看到更多人形机器人的应用前景,很多人会问为什么人形机器人是未来?非常简单的道理,机器人做成人形是最通用、最泛化的,因为我们物理世界是为了人类设计的。
与其把所有东西变成各种各样的机器人,还不如做成人形机器人代替人操作这些设备。在技术变革里面我们看到未来通过人工智能带来的泛化性、通用性,未来人形机器人也会变成平台化的应用,像今天iPhone+APP一样。未来买一个人形机器人的本体,装上炒菜的APP或者做家务的APP,机器人可以代替你完成这个劳动。
今天我们可以看到市场上已经有很多人形机器人,尤其不久前,Figure机器人非常火——作为第一个完成了机器人跟大模型跟OpenAI打通的案例,基于大模型,实现自主决策、自主操作,达到人所希望的效果。
对于未来,马斯克讲过,未来人形机器人会像新能源车一样,一家一户有一个新能源车,一家一户有一个人形机器人。
今天中国汽车保有量2.8亿,每年销售量三千万辆,这就是未来人形机器人的市场,又一个庞大的万亿的市场。人形机器人的应用场景非常多,像今天在人形机器人泛化能力有限情况下,可以在工业巡检等特殊场景先试行,未来会应用到物流、配送、家庭服务等更多的场景。但是确实,还是非常需要一些时间发展迭代。
逐际动力是一家非常年轻的公司,在2022年年中正式运营起来,公司聚焦在通用人形机器人研发制造。来自科学家创业,也有非常顶尖的研发、产品和工程团队,80%是研发人员,很多也来自985、211和海外非常优秀的学校。整个团队在过去一年半时间快速推出几款产品、技术,也得到资本的青睐和新闻媒体的关注。
逐际动力在成立到今天为止有几个最关键的节点,第一是2022年9月推出四轮足机器人W1,第二在2023年12月份,也是在公司成立一年半左右的时间对外正式公布人形机器人CL-1基于实时地形感知上楼梯的测试视频,运动控制能力方面非常强。
这里面讲讲关键技术和AGI和AIGC的关系,人形机器人本质来讲,就是一个类似或者超越人的运动能力、计算能力和感知能力的机电系统。
运动能力是最重要的,机器人不运动就是一个Chatbox。在运动能力里面,我们分成移动能力和操作能力,移动能力能达到的效果要像人类一样,去到人能去的地方,操作能力能达到的最佳效果是做人能做的操作的事情,比如抓取任何人能抓到的东西。
人形机器人就是由很多关节组成的机器人的本体,每一个关节由电机、减速器、驱动器组成的动力单元,机器人的关节通过运动控制算法协调统一,实现运动控制。
如果机器人执行的是事先规划好的运动,这就是传统的技术,是已经存在了几十年的自动化机械臂。但是如果它需要跟外界产生更多的交互,这就是今天所说的新的技术,在跟外界产生更多交互的时候,大家可以看到,包括对环境的认知、感知,物体的检测,甚至于接触,通过触觉反映的东西体现出来的,在这里面有一个共识。
AI代替人去做决策,人形机器人代替人去劳动的,机器人核心能力是运动能力。
运动控制是非常传统的技术,而基于环境、感知反馈所形成的运动控制是技术未来发展的关键,感知的东西越复杂,挑战越大。人工智能不直接帮助人形机器人去运动,而是通过对环境的感知提升运动的效果。所以在这里面,我们可以看到AGI对机器人的影响非常大。
在不断研发迭代产品的过程中,逐际动力形成了通过模仿学习、深度强化学习以及基于感知的运动控制等关键的新技术,推出了人形机器人CL-1、双足机器人P1,以及四轮足机器人W1。
人形机器人非常有意思的一点,从今天慢慢看向未来,具身智能机器人首先要有主动感知环境的能力,通过基于感知的运动控制算法对非结构化地形实时了解,实现实时的运动控制,像人类一样地运动。
同时硬件方面,人形机器人也在经历关节的不断迭代,今天大家所看到的机器人用到的关节,在未来真正实现to C端机器人应用的时候,能力是今天的3-5倍。在不断迭代过程中,软件和硬件之间相互的耦合非常重要。
在这里给大家看一个视频,上楼梯对于人类来讲非常简单,但对于人形机器人来讲非常复杂,机器人上楼梯像婴儿一样一步一找齐,这里面颇具挑战的是运动控制算法。通过不断迭代,我们在去年12月实现了人形机器人动态上楼梯,最近更进一步实现了像正常人一样一步一阶上楼梯,还跑起步来。
同时,人形机器人今天还有很多操作能力上的限制,通用人工智能还不能够完全将我们所看到的多模态的场景形成机器人自己的行为,在这个过程中,如何通过多模态大模型使人形机器人自主地运动,通过神经网络、自然语言等技术实现人形机器人最终的自主移动操作,这个部分目前来讲是产业当中最难的事情,产业和学术界都在往前追赶和研究。
今年初我们发布了人形机器人遥操作视频,更多的是为机器人训练采集更多的数据。
另外一个我们有两足机器人P1的产品,这是一段非常有意思的视频,它第一次去一座山里,走在各种各样的地形上,但不会摔倒,这是通过强化学习算法实现的运动控制。今天我们在这个小的双足机器人上实现,后面逐步延伸到全尺寸人形机器人的双足控制上,最终实现像人类一样在任何非结构化地形上,哪怕第一次去,各种各样的地形、干扰对它都不会造成影响,甚至于超过人类的平衡的能力,这是今天可以通过AI算法不断训练出来的。
另外我们还有一个四轮足机器人W1,特色是轮足的形态,具备了点足的特点,同时兼具了轮子的优势——速度快、负载高且效率高。应用场景里有独特的优势,包括保持背部平衡上下楼梯等,都已经达到了今天在机器人控制领域里面非常好的效果。
很多人关心未来人形机器人商业化是什么样子的,跟AI是什么关系?
以前大家定义一款产品的时候是聚焦在技术边界内部,也就是按照客户的需求来定义方的、圆的或者三角的产品。而在今天,具身智能的应用场景是非常大的未来的应用场景,大家可以想像到不管to B也好,to C也好,今天技术边界没有那么大,但是我们在不断扩大这个边界。过程中,如何通过沿途下蛋,不断把成熟起来的技术和产品率先实现商业化,比如先形成自主的移动能力,然后是移动操作能力,这是关键。这个过程中,机器人跟AGI、AIGC打通,加强场景的认知、理解,实现任务的分解,更好完成规划决策,这些都非常重要。
未来,人形机器人有非常多的应用场景,早期在危险场景、中期在高端服务、制造业,未来是走进千家万户,为每个家庭服务,大脑、小脑、本体有很多技术在不断地实现和完成,这里面会有大量行业大模型垂直应用的机会。
希望之后有更多机会和在座的AI产业界朋友认识,开展具身智能领域里更多合作、实现产业的互通,谢谢大家。
文章来源于:微信公众号量子位
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales