AI Pioneers|星海图高继扬:人形机器人不是具身智能的唯一答案

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
AI Pioneers|星海图高继扬:人形机器人不是具身智能的唯一答案
7192点击    2024-04-21 23:02

1. 从自动驾驶到具身智能


机器之心:你个人的职业经历主要在自动驾驶领域,为什么在去年会想要开始在具身智能领域创业?


高继扬:我读博士是做计算机视觉的,然后毕业之后在 Google 的无人车公司 Waymo 工作两年多,后来回国在 Momenta 干了大概 2 年。


我觉得,其实对于我们这一批人来说是一个自然而然的选择。可能对于外界的人来说,好像自动驾驶和具身智能是两件事,但其实是一件事。


我博士毕业以后,想做的是 “AI + 机器人”。而车其实也是机器人的一种,可以理解为自动驾驶是具身智能在公开道路上的一个应用而已。以特斯拉为代表的自动驾驶公司所做的这一套 FSD 的自动驾驶技术架构方案,其实跟未来具身智能会用到的技术架构基本上是一致的。


然后对于创业这件事,其实我早就计划好了。应该是我大学的时候就想,一直琢磨到底干啥,就是属于我这一代人的机会到底是什么。我上大学那会儿 11~15 年是移动互联网最风生水起的那段时间,当时看着互联网巨头觉得很牛逼,但也明显地感觉到互联网不是我这一代人的机会。


直到大四的时候开始接触到 AI 深度学习,我觉得这个东西特别好、有前途,而且我自己也很感兴趣,觉得这是能够彻底改变世界的,因为它跟互联网不一样,互联网是改变了生产关系,而 AI 让生产力再次得到提高。


所以后来就去做这个方向的博士研究。Waymo 和 Momenta 的两段经历让我觉得自己为创业的准备基本已经做好了,第一有足够的技术积累,然后产品怎么做,团队怎么管理,都有一定的经验了。我觉得就在那个时间点,内部环境和外部都 OK 了。23 年 5 月我就提了离职,6 月底正式离职,然后 8 月初开始融资,11 月份首轮融资就完成了。


机器之心:离开 Waymo 和 Momenta 的原因分别是什么?


高继扬:我很感谢 Waymo 教了我很多东西,比如用 AI 做机器人的大框架、思维方式、工程体系。不过 Waymo 当时在做的 L4 级别的自动驾驶有一个很大的问题 —— 也就是 AI 产品的失效成本问题,这也是我们后来决定创业的商业根基。


我们认为,任何一个以 AI 作为核心驱动力的产品或商业模式背后都是 4 个要素的循环,商业价值、数据规模与质量、智能程度、产品力。这 4 个要素能够循环起来,这个产品就能够产生运营剩余。什么叫运营剩余?就是它单次失效的成本小于两次失效之间的收益,这个就算有剩余了。

AI Pioneers|星海图高继扬:人形机器人不是具身智能的唯一答案




简单来说就是要有用。举一个具体例子,比如 Robotaxi,假设它失效一次,我们给他算算成本是多少。如果发生碰撞,大概损失的量级会在 10 万人民币浮动。按现在网约车司机大约一公里赚 1 块钱去计算。如果说自动驾驶要 “有用”,那意味着这个车需要能够连续无事故地开大于 10 万公里,才能把两次 “失效” 下的收益做正。


这个失效成本太大了,这也是为什么 Robotaxi 自动驾驶搞这么多年搞不成的原因。这也是我 2020 年下半年离开 Waymo 准备回国的一个主要原因,我觉得它的商业模式和 AI 的发展规律是背道而驰的,因为产品的失效成本控制不下来。


后来我加入了 Momenta 去做量产,我觉得量产可以控制整个产品的失效成本。因为 Momenta 是 L2 模式,Waymo 是 L4,从法律的角度来讲,L2 的责任在人,L4 的责任在车,所以两者的失效成本是不一样的。


后来我在 Momenta 先后负责了感知规划控定位,包括整个的泊车系统、行车系统。这个过程里,我觉得确实是解决了失效成本的阻碍了,但是它又有新的问题,数据自主权。


一个 AI 公司的发展需要依靠数据,没有数据就没有智能,但数据的获取成本和渠道是非常重要的两点。这个方面上,目前模式下的自动驾驶软件供应商其实是不太有利的。你去跟车厂去合作,在过程里面数据能不能回来,这里边有一点博弈的关系。


所以这也是为什么我们做具身智能,我们强调的两个基本原则:第一个就是特别关注产品失效成本,因为这是你商业模式能成立的前提。第二个就特别关注数据的获取成本,因为数据获取成本如果居高不下的话,(AI)转不起来对吧?


然后在这个基础之上,我们要软硬件一体。AI 永远是核心竞争力,将 AI 核心能力搭载在一个硬件产品上面交付给使用者,直接向终端的使用者建立闭环商业闭环,我们才有可能掌握数据自主权。


所以这也是过去这两段经历给我的启发,就是要关注失效成本和数据成本。你看 ChatGPT 为什么能成,因为它的失效成本仅仅只是浪费了用户 20 秒时间,失效成本很低,同时它的数据成本也是低的,大量的数据都是来自互联网。这两点也是我们在做具身智能场景选择和产品设计的底层逻辑。


2. 一脑多形,人形不是唯一答案


机器之心:基于上面两种原则,你们首先选择的场景和产品是什么?


高继扬:具体的场景和产品我们会在下半年正式去介绍。但我们的目标是明确的,是端到端地去提供某些蓝领劳动力岗位的供给。


什么叫端到端?我们拆解任意一个岗位,它都由多个任务去构成,比如说做奶茶的,它会包括打奶昔、摇晃制作、递给客人、跟客人做沟通等一系列任务。


那一个具身智能型的机器人产品有商业价值,是因为他把这个岗位给完整的替代掉了。在商业社会里面,人是岗位的劳动力供给,岗位是任务的集合体。所以在这个里面我们就强调的是,瞄准这个现实世界商业社会当中的岗位,然后做能够去端到端替代的机器人产品。


我们做具身智能不去创造 PMF(Product Market Fit,产品市场匹配),因为 PMF 遍地都是。对于蓝领岗位,我们端到端的任务替代率越高,我的商业价值就越大。未来的具身智能体与人类融合后构成的世界,肯定会创造出新的工作流程和配合方式,不仅仅是对现有工种的替代,这个新世界的丰富性可能超过了我们所有人的想象。


机器之心:具体打算怎么切入?


高继扬:相对于靠脑力吃饭的 “白领”,蓝领更多依靠通过体力劳动改变物理世界,比如服务员、外卖员、工厂里面的工人。蓝领的工种很多,范畴很大。


至于第一步选什么工种去做,这里面有很多要素去考虑。在现在的商业化上,我们不会直接去怼狭义的人形机器人,当然它会是具身智能未来的重要形态之一。


如果说为什么国内很多公司在做人形机器人,我认为他们在 follow 一个基本逻辑,那就是因为 Elon Musk 在做。但你问他们为什么特斯拉做,为什么马斯克做,最后基本说不出来一个一二三。这个就意义不大。


这里面有一个很基本的点,很多人形机器人公司忽略了特斯拉的起点和终点。特斯拉的起点是什么?第一它不缺钱,第二,它在智能车上面迭代出了完整的智能系统,刚才我说的自动驾驶是具身智能的一个应用,它现在通过这一个应用把大脑总结迭代出了一部分,这个重要基础是别的公司不具备的。


而我们去看这个基础要迭代出来需要花多少钱?10 亿美金。现在我就不具体点名国内这些融的最猛的具身智能公司融到 10 亿美金了吗是吧?这个就是没有特斯拉的起点。


然后第二个就是没有特斯拉的终点。(现在这些机器人)在工厂里边做线束装配等等,这些应用会是特斯拉做人形机器人的终点吗?不,只是它的路径而已。它的终点是,马斯克为了要实现火星移民,最终要把机器人放到火星这种完全陌生的环境里,人形是最有通用性的,这没问题。


可是我们面对的世界是什么?我们面对的世界是经过人类改造的世界,是人这个灵长类动物的基因在大自然环境下强化学习的结果,对吧?如果机器人在咱们这个世界里边再强化学习一遍,还会是一样的结果吗?我觉得画一个大大的问号。


机器之心:你的意思是,其实不需要(完整)人形就可以做那些事情?


高继扬:对,还是回到需求。人之所以有 “人” 这个形是为了开始适配大自然的环境,可以去改造大自然。但我们现在面对的环境已经是人类改造过的社会环境。在这个社会环境里的一系列的需求,我们应该去思考什么形可以满足它。事实上,只要它有足够大的商业价值,算法进入了工程阶段我们就可以去做它。


我们认为,如果是围绕需求去做产品设计的话,那最终的本体应该是一个高自由度的关节机器人,人形可能是其中一种,但不会是唯一一种。


也就是说,具身智能的未来应该是 “一脑多形” 的,可能最终会出现的形式是,一个通用具身智能基础模型,然后能够适配到不同构型的身体上,可以对应解决现实世界的各种需求场景。


而在这个路径往前走的过程里面,对于具身智能公司来说,本体不应该是目的,而是手段。


机器之心:你们认为其实有价值的具身智能可能有很多形。选择 “先不怼人形” 的理由是什么?


高继扬:这里边涉及一个更基础的问题要去分析:构成具身智能产品的两个部分,机电系统和智能系统,什么是更重要的?有些公司在这个点上可能还在争论,但我们的结论很清晰,就是智能系统。


人形机器人在没有智能的情况下,它就是一堆铁疙瘩。而假设智能的部分由人代替,一个人去遥控机械臂,我们可以做非常多任务。因此,具身智能产品的关键不在硬件而在于智能。


而如何产生智能,核心就是又回到咱们刚才说的把 4 要素循环,然后运营剩余时效成本就这一套。对,所以关键就是要选好你的商业闭环场景。通过足够便宜的本体,实现良好的商业闭环,然后降低数据获取成本,推动算法进入规模化阶段,实现智能的提升。


但你会发现狭义的人形机器人是不符合这个链路的,它是一个死循环。如果你直接去做人形,很现实的问题马上就来了,因为人形成本高,意味着我进入商业场景的门槛就高,对吧?大家付不起。那么,没有商业闭环就没有数据闭环,所以就没有智能。


我们需要找到一条破解这个死循环的路径。人形机器人未来大概率会真的进入到人类社会,但是这个是目标,我们现在要关注的是这个路径应该长成什么样,如何实现这个目标。所以这就是为什么刚才我说,对于一个具身智能公司来说,形是手段,而目的应该是发展智能。


机器之心:之后可能会去做人形机器人吗?


高继扬:如果说,我们看任何行为它是手段,它不是目的。既然是手段,我们就要审时度势了。未来当机电系统的足够成熟,智能系统已经非常的发达了,我觉得人形可能是一个还蛮不错的选择。但是当机电系统不够成熟的时候,它的边际成本还没有降下来的时候,2024 年这个时候可能它就不是一个正确答案。


3. 商业闭环驱动智能发展


机器之心:那你们的答案是什么?在 2024 年。


高继扬:我们会认为,具身智能需要为人服务、跟人生活在一起,最终要超过人,这是具身智能发展的主旋律。在无人的环境里我们不需要智能,需要的是自动化。


那商业是什么,就是有用的打败无用的,高效地打败低效的,谦虚的打败骄傲的。我们要思考的就是,在这个地方我们到底有没有需求,满足需求的最好方法是什么。我们很多问题都会有答案。


机器之心:具体一点呢?


高继扬:我们初步的答案会是针对元场景研发的具有移动能力的操作型机器人(Mobile Manipulator)。机器人分为移动和操作两个维度,如果把动作看作一个平面,那这就是一个 X 轴一个 Y 轴。拆完之后,你会发现大量的问题还是科学问题,只有少部分问题是工程问题,我们做产品的话,我们不能带着科学假设去做产品设计,这会是有巨大风险的。


机器之心:什么是科学问题,什么是工程问题?


高继扬:工程问题是前面这个路径已经很清晰了,我就往前干往前走,我一定有结果,这叫工程问题。科学问题是什么?现在我面前有 5 条路,可能还有第 6 条路我不知道,哪条路能帮我走到终局我也不清楚,我得先试一试搞一搞看一看,这就叫科学问题。


我们不能在有科学问题的情况下,把这种纳入产品设计的过程里面,这对于一个初创公司来说会是一个巨大的成本巨大化,风险非常大,这是在赌,赌你不知道你会赢还是输。在认知不清晰的情况下,这不是一个好的选择。


文章来自微信公众号“机器之心”,作者:姜菁玲


AI Pioneers|星海图高继扬:人形机器人不是具身智能的唯一答案

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md