本期,我们邀请到了灵巧手公司 Dexmate 的创始人陈涛和秦誉哲。两位分别在上海交通大学、麻省理工学院(MIT)、卡内基梅隆大学(CMU)和加州大学圣地亚哥分校(UCSD)等知名院校的顶尖实验室积累了丰富的研究经验。这些经历不仅为他们提供了扎实的技术基础,也让他们对产业需求有了深入的理解。
Dexmate致力于开发基于AI的灵巧机器手,通过软硬件协同设计、数据驱动学习和智能控制等技术的深度融合,打造高性能的产品方案。团队提出创新性的"数据飞轮"策略,旨在结合虚拟仿真和实际场景数据来提升灵巧手的适应能力。产品设计以AI驱动为核心,目标是实现多样化任务处理能力,包括抓取上万种不同物体和应对各类门型等复杂操作,同时将所有运行资源集成于机器人本身,实现真正的即插即用。这种无需用户进行特殊改造的设计理念,将有效降低使用门槛,让机器人能够在各行各业中广泛应用
与许多追求完全仿人设计的公司不同,Dexmate 并不局限于完全仿人的设计理念,而是着重于实际应用中的效能和灵活性。在技术路线上,Dexmate 采用了软硬件协同设计的方法。他们认为,只有将机械结构设计、传感器系统、控制算法和人工智能模型作为一个整体来优化,才能真正发挥灵巧手的潜力。
让我们一起走进Dexmate 的创业故事,enjoy! :)
ZP:请两位介绍一下自己,之前有什么重要的经历?
陈涛(左)、秦誉哲(右)
陈涛:我从小就特别独立,因为很早就过寄宿制生活。我是一个比较追求完美的人,对自己和项目的要求都挺高的。从小我就对理工科特别感兴趣,参加过各种竞赛。通过自主招生考上了上海交大的机械工程专业。后来发现,机器人的核心其实在软件和算法上,所以大四时就开始自学CS,转向了AI。
本科毕业后,我在一家人形机器人创业公司待了一年,接触了SLAM、强化学习等领域。之后去CMU深入研究如何把强化学习应用到不同类型的机器人上,还和Meta合作做了个降低机器人入门门槛的项目。
到MIT读博后,我先是研究四足机器人。2019年,我们就实现了用强化学习控制四足机器人跨越障碍物。2020年底,我转向了研究机器人灵巧手,因为它更有经济价值,而且灵巧手控制是机器人领域最难的问题之一。我在这个方向上研究了四年,发表了很多论文。
秦誉哲:听到陈涛从小寄宿的经历,我特别有共鸣。我也是从小在父母不在的城市寄宿,养成了比较独立的性格。我们的经历很像,都是通过自主招生进入上海交大的机械工程专业,后来也都转向了 AI 和灵巧手的研究。
我是陈涛小两届的学弟。上海交大毕业后,我就来到了美国。当时看到 AI 领域的变化,觉得光从机械角度解决不了机器人的问题,就决定转向 AI 方向。我很幸运地成为了 UCSD 苏昊老师实验室里第一个做机器人的学生。后来读博时,又成为了王小龙老师的第一个博士生。跟陈涛一样,可能因为都是实验室早期成员,所以也比较独立。
说到个人经历,我从小身体特别差。高中时为了改善身体开始跑步,一跑就是十几年。这些年参加了 50 多场比赛,其中马拉松就有十几场。虽然看起来瘦弱,但我在上海交大时还是跑团的队长。我觉得做机器人跟跑马拉松挺像的,都需要长期坚持。这个领域涉及的方面很多,不是一朝一夕就能做好的,需要的不只是爆发力,更重要的是持久的耐力。
ZP:为什么这个时间点选择创业?
陈涛:现在是一个非常好的时机,我们可以把 AI 技术应用到更复杂的机器人训练上面。这个判断是基于我这些年的亲身经历。我在机器人领域,特别是用 AI 控制机器人运动这块儿,包括腿部运动和手部操作,已经深耕了很多年。通过强化学习的研究,我亲眼见证了技术突飞猛进的发展。比如说四足机器人,19年我们刚开始做的时候特别难,但仅仅一年后这个问题就突然被解决了。灵巧手也是类似的情况,四年前全球研究这个的没几个人,可能一只手都数得过来,当时也是相当困难。经过这些年的积累,我能真切地感受到,这些技术已经逐渐走向成熟了。
秦誉哲:对机器人这个领域来说,现在是工业界接手的最佳时机。因为大部分技术问题都是这样的:先由学术界提出和探索,等方法论成熟了之后,再交给工业界。现在机器人领域的很多方法开始趋向成熟了,正需要做更精致的工程化和规模化,所以工业界是最合适的选择。
创业这件事呢,最重要的就是时机和伙伴。我自己一个人的话,肯定是不会选择创业的。但是因为当时涛哥来找我,而且我们认识很多年了,觉得他既志同道合又特别靠谱,所以就决定跟他一起做这个创业项目了。
ZP:两位在灵巧手的研究的方向有什么不同?
陈涛:我做的研究偏向于利用强化学习在仿真器里面大规模训练机器人,比如让灵巧手去做一些复杂的任务,然后把训练好的控制器给迁移到真机上面。然后具体的一些任务我们做的就是比如说像拿一个灵巧手去抓东西,然后我怎么样用一些最少量的传感器的信息,比如说单个普通的相机的照片信息,能够让这个灵巧手做到,比如说对成千上万的物品的灵活操作。这些是我自己过去研究的一些重点,就是怎么样以最小的成本,最简单的系统,以最鲁棒的效果去做最难的机器人控制问题。
秦誉哲:我们两个研究灵巧手的切入点不太一样。涛哥之前做四足机器人的控制,所以他更多是从控制的角度切入。我之前做的是视觉相关的研究,就更倾向于从视觉角度入手,主要研究怎么从人类世界获取数据来辅助灵巧手。
现在从人类视频学习灵巧手操作这个方向挺火的,其实我们在2020年就开始做了。我们研究从人类视频、动作捕捉,还有示教数据中学习灵巧手的操作。因为灵巧手本身就是仿人的,所以从人类世界获取知识是很自然的选择,比那些夹爪之类在人体上找不到对应的构型要合理得多。等到做了几年之后,大家研究的方向就趋同了。
ZP:灵巧手领域现在有什么重要的研究课题?
陈涛:第一条是用仿真器做大规模训练,包括强化学习,还有一些经典的控制算法,比如轨迹优化算法。这些都是先在仿真器里大量训练,然后再迁移到实物上。另外一条路线是通过收集真实操作数据来训练。比如用 Vision Pro、Quest 或者一些手套去控制真实的灵巧手,记录下这些操作数据,然后用这些数据做模仿学习,训练神经网络。
还有就是刚才提到的从视频里学习的方法,现在做的人越来越多。不过这个方向的不确定性比较高,更像是一个研究领域的前沿探索问题,从技术成熟度来说可能比前面两个方向要低一些。
ZP:Dexmate 灵巧手现在的产品定义是什么样的?
陈涛:灵巧手最关键的是功能性,而不是形态。我们更在意的是它能不能像人手那样灵活地完成各种任务,比如应对不同形状的物体,处理复杂的接触操作等。因此,我们应该从任务的角度来定义灵巧手。
虽然很多人把灵巧手等同于人手,但其实它不一定非要是五指结构。有这样的形态当然好,但这并不是最重要的指标。关键还是要看机械手的灵巧程度。
ZP:大的性能方面上有没有一些取舍,比如说更偏向灵活还是更偏向刚性?
陈涛:一个好的灵巧手应该具备两个核心特点:首先是高自由度,其次是合理的刚柔结构。理想的灵巧手应该像人手一样,内核是刚性的骨骼,但表面是柔软的。这种设计既能保证较大的负载能力和抓力,又能通过表面的软材料提供更大的摩擦力和更好的操纵感。
这种柔性设计还有个好处,就是能降低对 AI 控制器精准度的要求。因为手指表面可以形变,所以能自动适应一些控制误差。比如说我们平常生活中两个常见的抓取任务,抓杯子和抓洋娃娃,抓洋娃娃会更容易,因为它会形变,增加洋娃娃和手之间的接触面积,让抓取变得简单很多。
秦誉哲:关于自由度,我们更强调"有效自由度"而不是简单地数电机的数量或者是手的关节数量。举个例子,一根手指的三个关节如果都只能向下弯,那即使有三个自由度,实际效果也很有限。但如果能让手指左右动,这就是一个完全不同的、更有效的自由度。我们希望从功能和任务的角度来定义真正有意义的自由度。
另外,在实际应用中还要考虑很多现实问题。比如电机长时间运行的发热问题,因为实际使用可能需要连续工作十几个小时。再比如家用机器人可能会接触到水和食物残渣,就需要考虑防水性能。还得有触觉功能,这样才能控制抓取力度,避免把碗捏碎或者把鸡蛋弄破。
ZP:我们现在产品达到了哪些指标呢,比如有效自由度精度,负载能力,响应速度等
秦誉哲:作为一家 AI 公司,除了刚才说的硬件响应指标,我们还特别关注 AI 层面的一些指标。在硬件方面,我们正在开发的灵巧手在一些关键的方面可以超过人手,灵活性其实更高。我们还在上面配备了多个环境感知的传感器等, 可以增强机器人操作时对动态环境的应变能力。我们同时在推进自研和改造两条路线。一方面,因为主要精力放在 AI 模型训练上,所以会直接采用市面上好的灵巧手,而且我们的 AI 模型支持跨平台使用;另一方面,针对一些场景的特殊需求,我们也会自主设计。
在算法层面,我们特别强调"虚实结合"。市面上很多公司都有自己的侧重,比如 Physical Intelligence 更看重真实数据的质量,英伟达则更强调仿真数据的规模优势。但我们认为这两种路线各有优劣,没必要非此即彼。我们团队在这两个方向都积累了丰富经验,现在正在探索一些技术路线,把真实数据和仿真训练有机地结合起来完成各种任务。
另外,我们还特别注重软硬件的协同。在早期硬件设计时就充分考虑到后期 AI 算法的开发和模型部署需求,这也是我们区别于其他公司的一个重要特点。
陈涛:我们认为机器人是一个完整的系统工程,特别是在数据获取方面,我们更注重实际效果而不是学术争论。不管是仿真数据、人类视频数据,还是其他数据,只要有用就都要用起来。因为真正强大的机器人大模型,一定是需要各种数据源的结合。所以我们的目标就是打造一套完整的工具体系,需要什么就能立即调用最合适的工具采集最好的数据。
比如在真实世界数据采集方面,我们团队就做了很多开创性工作。我们是全球第一个用 Vision Pro 来控制灵巧手做操作的团队,后来还开源了代码,被很多国内外公司采用。在仿真数据方面,我们也积累了丰富的经验,我们也是全球最早开始使用基于GPU大规模并行模拟的仿真器的团队之一。
但是,单纯从 AI 的角度收集数据是不够的,因为中间缺少了真机层面的实践。在真实机器上实现功能时,还需要很多控制层面的知识,比如基本的运动控制、力控制,甚至最基础的 PID 控制等等。这些都是纯 AI 背景的人容易忽略的部分。
因此,从落地的角度来说,我们采取实用主义方法,同时重视系统性思维。一方面要建立完整的工具链,能随时调度所需资源;另一方面要软硬结合,通过整体优化来实现极致的产品体验。
ZP:公司后面有什么重要的 milestone?
陈涛:因为我们是软硬一体化发展的公司,所以我们有两个重要的里程碑。第一个是硬件层面的,我们要打造一款让客户满意的智能硬件产品。这不是传统那种靠预编程来运动的机械臂,而是能搭载 AI 模型、自动执行多种任务的智能设备。
另一个是软件层面的,我们要开发一个通用的灵巧手模型,让它能跨场景、跨任务地执行各种操作。这有点像 ChatGPT 那样,虽然不能直接用于具体任务,但它是一个很好的预训练模型。后续如果要做任何具体任务,只要用这个大模型微调一下就能用,这是我们在算法层面的重要目标。
ZP:训练灵巧手模型是什么样的过程?有什么看重的指标?
陈涛:数据的多样性和数量是我们看重的两个指标。在采集任务上,我们不设限制,只要想到就会去采。说到多样性,我们不能局限于单一场景。比如说抓取任务,不能只在一个桌面上反复练习。虽然可以采集很多数据,但缺乏多样性就失去了意义。
那么如何扩大数据量呢?在真实场景中,遥操作是常用方法。关键是要把遥操作设备做得足够简单,让没经过训练的人也能直接上手。同时要提高操作效率,把示教机器人的时间从一分钟缩短到一两秒。
除了这些系统层面的优化,我们在仿真器方面也在追求可扩展性。我们的目标是搭建一个通用框架,而不是为单个任务定制代码。这样后续增加新任务时,只需要加几行代码就能实现。
秦誉哲:关于数据这块,我们的目标是构建一个指数级的数据引擎。为什么说是指数级呢?一般大家通过真实世界的遥操作来采集数据,数据量是随时间线性增长的。但我们想要做的是,利用已有数据来提升生成和收集数据的速度和效率,让数据飞轮能够以指数级的方式推进。如果只是按照传统方式线性地采集数据,比如通过遥操作这种方式,那机器学习的问题可能很难在几年内得到根本性的解决。
ZP:如果类比大模型,在GPT之后学术界的方法就迅速收敛了,灵巧手在什么样的阶段?
陈涛:灵巧手是一个相对新兴的领域,真正的技术发展也就是近几年的事。虽然我们在这方面已积累了丰富经验,但要达到类似ChatGPT的突破时刻,最关键的还是要解决大规模数据积累的问题。
目前的一个现状是,很多前沿研究停留在学术界,但学术界面临数据量不够大、数据不够真实的问题。这正是创业公司的优势所在:我们不仅掌握领先的灵巧手控制技术,还能深入实际应用场景,大规模采集真实数据。只有这样,才有可能实现灵巧手领域的ChatGPT时刻
ZP:大概需要什么样的数据量级?
陈涛:机器人领域的数据训练跟ChatGPT有着本质的不同。ChatGPT可以直接从互联网上获取海量有效数据来做next token prediction,但机器人就完全不一样了。
在机器人领域,每一条高质量的示教数据都特别宝贵。这里面抛开数据质量单纯去谈论数据的数量在机器人领域是不合适的。比如在仿真器里用强化学习训练的时候,可能有90%的数据都是无效的。因为强化学习本质上就是一个随机探索的过程,它可能偶然探索到一个正确的信号,然后不断强化这个信号,但这个过程中会产生大量无效数据。
比如说,现在用一张显卡一小时就能产生10亿级别的数据,但真正有效的可能连10%甚至1%都不到。业界现在也很难给出一个明确的标准,说到底需要什么样的数据,以及多大的数据量才算够。
秦誉哲:虽然现在我们还没有足够的数据来完全解决灵巧手的问题,但我们已经找到了积累数据的有效方法。而且,以目前的训练框架,我们已经能够完成一些操作难度相对简单的任务,这些任务在很多行业都有实际应用场景。
通过这种渐进式的落地过程,我们可以持续扩大数据量,为更复杂的应用打下基础。我相信在未来3-4年内,一定能收集到足够多的实用数据,真正解决这些问题。虽然我们还不确定开发通用灵巧手模型需要多大的数据量,但这并不影响我们现在就开始落地应用。
ZP:硬件方面的挑战在哪里?
陈涛:从硬件角度来看,这项技术本质上并不特别复杂,结构上也相当成熟。但要真正实现落地,关键在于提升各个零部件的质量,这需要整个生态和供应商的共同努力。
比如说,我们之前能做出灵巧手的电机,但可能体积偏大。要落地的话,就得把电机做到极致的小,同时还不能削弱力的输出。这就需要与供应商密切合作,把各个原部件做到更高水平。
总的来说,虽然大家在这个领域已经深耕多年,但要实现真正的商业化应用,还需要在细节上下更多功夫
秦誉哲:我可以做一个补充,把灵巧手做好,其实跟把VR眼镜做好有很多相似之处。关键不在于技术本身,而是如何把工程细节优化到极致,让产品真正好用,值得大家掏钱。
举个例子吧。VR眼镜在缩小部件后会遇到散热问题,灵巧手也是一样的。当手上排布了很多电机时,散热就成了一个大难题。
这里就涉及到很多技术指标的权衡了。比如说,为了散热好,可能会在表面开很多口,但这又会影响防水性能。所以,从工程角度来看,关键在于如何协同优化这些因素。
ZP:灵巧手现在构型上的一些差异比如构型和传感器,会影响我们模型的迁移吗?
陈涛:我们现在用的强化学习算法其实挺通用的,对机器人手的具体构型没有强依赖。虽然好的构型能帮我们更快地解决任务,但这套算法基本上能用在各种不同构型上。
其实所有的算法本质都是一种搜索,不管是强化学习还是神经网络,都是在寻找问题的解。构型设计得好的话,我们就更容易找到解决问题的策略。在读博期间,我和秦誉哲用过至少五种不同的灵巧手,但背后用的算法逻辑其实都差不多。
现阶段的算法已经足够通用,可以拓展到不同的手上。不过如果是在某个具体灵巧手上训练的模型,目前还不能直接迁移到其他手上去。但我觉得这个问题在未来一定会很快得到解决。比如说,当每个灵巧手手都能完成五个任务时,训练一个模型来控制三个不同的机器手就很容易了。真正的难点在于让一个灵巧手学会完成多种不同的任务。
ZP:Dexmate的设计理念是什么?
陈涛: 我们的产品有两个理念:首先是以 AI 驱动整体设计,追求软硬件的协同优化;其次是特别注重产品的实际性能和鲁棒性。我们不是简单做个 demo 或者拍个视频,而是要确保灵巧手能真正完成各种任务。比如说抓取,得能处理上万种不同物体;开门的话,得能应对各种不同类型的门。
我们的希望把机器人做成即插即用的设备。所有运行所需的资源都集成在机器人本身,不需要用户做任何特殊改造。这样机器人就能直接替代人工操作,企业不用为了适配机器人去改造现有环境。只有这样,才能真正降低使用门槛,让机器人在各行各业都能派上用场。
ZP:我们现在的客户是什么样的?客户用灵巧手完成什么任务?
陈涛:我们现在主要服务工业界客户,包括制造业工厂、仓库和餐饮等领域。虽然我们卖的是机器人系统,但客户愿意付费的关键在于机器人解决实际问题的能力。
这些客户目前都还在用人工操作,没有实现自动化。比如说,有个厨房客户想用灵巧手来炒菜、颠锅和加调料。传统的吸盘和夹爪根本不行,就拿颠锅来说,光靠夹爪抓锅把是抓不稳的。人手之所以能做到,是因为能整个手掌环绕着握住。这就是灵巧手的优势,它能像人手一样灵活地适应各种物体。
再比如清洁行业,保洁工作不只是简单地抓起放下毛巾,还要操作喷壶、喷剂等工具。这些复杂动作用普通夹爪都没法完成。所以灵巧手最大的优势就是自由度高,能适应各种物体和工具。不过因为这个行业还比较新,目前很多客户都还在试验阶段,需要时间去验证。
ZP:什么时候可以看到硬件产品?
陈涛:我们自己设计了一款可移动的具备灵巧手的机器人,形态是具备移动底盘,它也有双臂双手的形态,几个月后会出来。
ZP:未来一年公司在整体发展层面最关心的三个问题是什么?
陈涛:第一个是PMF(产品市场匹配度)。我们现在有灵巧手、机器人和AI模型训练框架这些工具,最关键的问题是找到最适合的应用场景,真正解决客户痛点。这直接关系到公司能否持续生存。而且,要打造具有强大泛化能力的通用模型,就需要海量多样化的数据。所以,找到合适的PMF也是驱动数据飞轮的关键。
第二个是团队。做出这些东西需要一个很好的团队,关键是要合适。我们需要优秀的AI人才,也需要精通硬件的同事。不过最重要的是,团队里的每个人都得真心热爱机器人,都有那种"要打造出一个特别牛逼的智能机器人"的自驱力。
第三个是AI技术。一方面要关注整个行业的最新进展,另一方面就是我们一直在说的虚实结合这条路。怎么提高泛化能力和鲁棒性,怎么解决真实场景中的问题,让技术从实验室、从公司内部真正走出去,落地到客户场景中去。
ZP:公司的长期愿景是什么样?
陈涛:我们既不是纯硬件公司,也不是纯软件公司,而是一个做机器人产品的公司。我们的产品依托于强大的AI能力和优秀的硬件系统。因为我们专注于灵巧操作,所以不会局限在单个行业,而是要通过这种灵巧操作能力,把各行各业的数据整合起来,形成数据飞轮,推动公司更快发展。
总结来说,我们想要打造的是一个通用、灵巧又可靠的机器人。最终目标其实很朴实:就是让每个人都能有更多时间做自己想做的事,把那些脏活累活交给机器人来干。这就是我们希望达到的状态。
ZP:过去一年, AI 和机器人的进展里面让你们最兴奋的进展是什么?
秦誉哲:目前的技术体系包含几个核心方向:最优控制、强化学习、模仿学习以及从视频中学习。在机器人领域早期发展中,这些不同流派之间的差异很大。但在最近这波机器人浪潮中,不同背景的研究者和工程师开始携手合作,共同攻克难题。因为大家都意识到,单一技术路线是不够的。比如波士顿动力,虽然他们有很多控制领域的专家,但也开始重视 AI 和强化学习的作用。同时,强化学习领域的研究者也认识到控制理论是算法的重要基础。
现在,不同领域的专家达成共识:必须通过跨领域合作,通过AI算法整合视觉、控制、规划等技术,形成合力来解决机器人领域的难题。这种跨界合作正在深入开展。
ZP:怎么看中国和美国未来的机会?
陈涛:国内的供应链优势非常强大,要做出极致的产品体验,这个优势是脱离不开的。另外,即使在最坏的情况下,假设市场出现分化,无论是国内还是国外,都可以各自构成一个庞大的市场。对创业公司来说,在任何一边都有很大的发展机会。
ZP:创业的历程中最意外的发现是什么
陈涛:创业初期,我跟秦誉哲还有另一位合伙人聚在一起的时候,我们主要都是偏 AI 和算法的背景。那时候我们都挺年轻的,我和秦誉哲都不到30岁,所以对能不能组建起一个优秀的硬件团队其实没什么把握。但后来特别让人意外的是,很多工作十几年、二十几年的资深工程师,他们愿意相信我们、加入我们的团队。这一下子就让我们团队的软硬件能力都得到了巨大的提升。说实话,这真的是一件特别幸运的事情。
ZP:期待什么样的同事加入公司?
陈涛:如果一个同事特别热爱机器人,有那种自驱的动力,相信未来机器人一定能做得很智能,想要参与到这个领域里来,我们会特别喜欢这样的同学。至于专业技术方面,因为机器人本身就是个很复杂的系统,所以不管这个人有什么特长,其实都能找到发挥的空间。
秦誉哲:我想聊点比较轻松的话题。我在小红书上经常看到有人问:"具身智能这个赛道靠谱吗?找工作到底是选具身智能还是自动驾驶?"这样的问题真的挺多的。
从我的角度来说,具身智能或者说机器人,是一个非常前沿的方向。现在没有任何人能百分百确定说,三年后它能发展到什么规模,或者一定能做成什么样。
但是呢,不管是创业还是加入创业公司,最重要的其实是一个"相信"。你得先相信这件事能做成,它才可能真正做成。如果你自己都没有十足的信心,那这事大概率就没法完成。这个说法听起来可能有点唯心,但从过往经验来看,在这种新兴行业,我们特别想找的就是那些真心相信这事能做成的人。
请注意,此次访谈内容已经过精心编辑,并得到了Dexmate的认可 。有兴趣加入Dexmate的读者可以通过ZP联系公司 ,我们也欢迎读者通过留言互动,分享您对本访谈的看法。
Z Potentials 将继续提供更多关于人工智能、全球化市场、机器人技术等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
文章来自于“Z Potentials”,作者“Z Potentials”。