想象生成模型能力提升,真实数据减少、生成数据增高,泛化性也随之增强。
数据之于技术发展的重要性长期存在。但由于它的采集难度大,训练数据成了横亘在机器人规模化落地面前的一座大山。
目前,机器人的训练数据大体上可分为三类:第一类是真实的遥操数据,第二类是高质量的仿真合成数据,第三类是人类的行为数据、其主要源于互联网视频。
机器人训练数据(图源:零次方科技)
随着Scaling Law在人工智能领域被验证,大语言模型和以特斯拉FSD(Full-Self Driving)推理为代表的端到端高速大模型,给具身智能领域带来了新的启发。
要实现具身智能,无论是遵循多模态大模型、采取构建高维世界模型、亦或是组合专有领域小模型的多种路径,其核心就在于能否解决对多样性、高质量数据的需求。通过对这一核心问题的思考,硬氪近日接触到的具身智能创业公司「零次方科技」提出了他们的解法——基于人类视频数据学习(Learn from hunman video)。
「零次方科技」成立于今年5月,由清华大学和江淮前沿技术协同创新中心共同孵化,核心成员来自清华大学AI&Robot智能机器人实验室,团队中还有多位主创曾就职于字节跳动、百度等互联网大厂、节卡等协作机器人公司。
数据量是实现通用具身操作的必需因素,单位数据成本是产品落地的基础条件。一个现实情况是,真实遥感数据和仿真数据都存在单位成本高的问题,而人类数据虽然数据量最庞大、但其数据质量是最低的。如何利用好海量的人类视频数据成为「零次方科技」探索的主要技术路径。
数据量与应用场景(图源:零次方科技)
区别于当前主流的遥操作技术,「零次方科技」借助三维人体运动姿态感知模型,通过提取人类关键关节的运动数据、并重映射到机器人身上,可在一定程度上降低算法的学习成本;同时,基于4D高斯溅射技术对机器人所观测信息进行重建,获得一个基于扩散模型的机器人动作生成策略,驱动机器人自主完成任务,使其具备直接向人类学习的能力(LFWH)。
测试结果显示,在LFWH基础上,机器人能够在仿真训练中进行强化学习,实现更加灵活泛化的操作,以弥补机器人与人之间的先天性结构差异,进而赶超人类专家的工作效率,并实现快速部署。
根据专项场景的数据及互联网数据训练想象生成模型(Imaginator),随着imaginator能力提升,模型训练中所需的真实数据逐渐减少,生成数据的比例越来越高,算法的泛化性也随之增强,进而实现Imaginator的生成能力愈发接近真实世界,逼近现实物理规律的世界模型,最终实现真正的通用人工智能。
想象生成模型(图源:零次方科技)
以「零次方科技」9月发布的双臂机器人F1为例。F1当前正尝试将其引入专业工厂的专项操作中落地使用,通过逐步拓展场景、推动数据飞轮滚动,可以有效提高模型和机器人的泛化能力。
比如中小企业工厂改造难、手动编程等问题,「零次方科技」提出,用机器人自主学习实现原位替代,不需要改变工厂布局、也不需要编程,只需把机器人引入人类岗位中,通过其持续学习的能力、不断填入数据,以增强机器人在场景方面的泛化能力。
用机器人模拟人类行为进行数据训练(图源:零次方科技)
在机器人整机方面,「零次方科技」四个月共完成了两款人形机器人的研发工作。除上述提到的F1双臂机器人外,10月24日,公司正式发布首款人形机器人Z1,该机器人可以在多种不规则路面、复杂地形中长时间稳定行走,且具备优秀的抗干扰性能,即使受到各方向的强冲击也能保持稳定站立。
Z1配备有150Nm关节电机,全身具备27个自由度,载重测试极限高达20公斤,负载/自重比超70%。其搭载了自研的EtherCAT通讯模组,整体系统可实现低延时、高带宽;同时,团队还采用了AI技术辅助进行机器人的结构参数设计,能耗更低、其动态运动性能更高。
目前,「零次方科技」正在尝试让机器人学习电影《钢甲铁拳》中的画面,已实现对人类双臂动作的准确复刻。根据官方公布的视频画面,通过观察人类的行为动作,Z1可以模仿人学习攻击招式,以灵活的全身协同控制能力为基础,进行动态防御。
创始人闵宇恒表示,计划于今年年底,其机器人将在无操作设备的情况下展开人形机器人拳击比赛,实现每个人的机甲梦。
文章来自于 “36氪”,作者“黄楠”