Figure公司通过强化学习,成功实现机器人的自然步态。利用高效物理模拟器,仅用几小时完成相当于多年训练的数据,训练出的策略无需额外调整即可「零样本」迁移至真实机器人。
现在训练机器人,都不需要真实数据了?
刚刚,Figure提出了一种全新的基于RL的端到端网络。
只需要在纯模拟环境中进行训练,用几个小时生成模拟数据,就能让Figure 02像人类一样自然行走了!
该方法的亮点如下:
更让人惊喜的是,一个神经网络策略就能控制一大批机器人!
通过一个高保真物理模拟器,Figure最新的机器人仅用几个小时,就能模拟出几年的数据。
为了把模拟环境的训练成果应用到真实机器人上,团队采用了两种办法。
一是在模拟训练时进行域随机化,让机器人接触不同的物理属性;二是在真实机器人上安装高频扭矩反馈装置。
这样一来,模拟环境中训练好的策略,无需任何微调,就可以「零样本」迁移到真实硬件上。
在强化学习中,控制器通过不断试错,根据奖励信号来调整自己的行为。
Figure在高保真模拟环境中训练RL控制器,运行数千个具有不同参数和场景的虚拟人形机器人。
这种多样化的训练,使训练出的策略能直接用在真实的Figure 02机器人上,走出稳健的人类步伐。
Figure基于RL的训练方法,大大缩短了开发时间,在现实世界中表现也很稳定。
用强化学习方法,在GPU加速的物理模拟环境中,训练行走控制器。
这个模拟环境效率超高,短短几个小时就能收集到相当于数年的模拟训练数据。
在模拟器中,数千个Figure 02机器人并行训练,每个机器人的物理参数都不一样。
它们会遇到各种各样的情况,像不同的地形,执行器动力学变化,以及被绊倒、滑倒和推搡等。
这时,一个神经网络策略学习控制所有的机器人。
人形机器人有个很大的优势,它的硬件平台通用性很强,能执行类似人类的任务。
不过,RL训练出来的策略,有时不是最佳的,没办法让机器人走出人类走路的感觉,比如脚跟先着地、脚尖蹬地,手臂摆动和腿部动作的配合。
所以,在训练时,会奖励那些走路轨迹像人的机器人,把偏好融入学习中。
这些轨迹为策略允许生成的行走风格建立了先验条件。
除了走路轨迹像人,研究者还设置了其他奖励条件,比如优化机器人速度跟踪、功耗更低,更好地应对外界干扰和地形变化。
最后一步,是把模拟环境中训练好的策略应用到真实的机器人上。
模拟机器人只是高维机电系统的近似,在模拟环境中训练的策略只能保证在这些模拟机器人上有效,不一定能在真实机器人上正常工作。
为解决这个问题,在模拟训练时,采用域随机化技术,随机改变每个机器人的物理属性,让策略能适应各种不同的情况。
这有助于策略零样本泛化到真实机器人上,而无需任何额外的微调。
同时,在真实机器人上,用千赫兹速率扭矩反馈控制,来修正执行器模型的误差。
这样,即使机器人之间有些差异,如地面摩擦力不同,或受到外界推搡,这个策略都具有鲁棒性,能让Figure 02机器人像人一样行走。
可以看到,10个Figure 02机器人用得都是同一个RL神经网络。
说明现有的策略不用再做调整,就能推广到大批机器人,对未来的大规模商业应用是个好消息。
Figure Robotics是一家新兴的机器人公司,专注于开发通用人形机器人,旨在通过先进的人工智能扩展人类能力。
公司专注于构建像人类一样学习和推理的机器人。
Figure Robotics一开始与OpenAI合作,然而在内部人工智能(Helix)方面取得「重大突破」后,于2025年2月结束了合作,Figure Robotics转为自主开发Helix VLA模型。
Figure 02具有肉眼看起来最接近未来成熟形态的外形设计。
简直和威尔史密斯《I,Robot》中的机器人如出一辙,浑圆的面罩模型也避免了恐怖谷效应。
身高和体重也完美模拟一个成年男性。
当机器人能像人类一样学会自然行走,是否意味着也能像人一样学会其他「自然」动作?
更加重要的一个「隐喻」是,目前所有的人形机器人都是按照人类的形态打造的。
这更加方便了未来机器人与人类生活的融合。
除了自然行走,机器人还有很多「人类技能」需要学习,但他们已经在路上了。
参考资料:
https://x.com/Figure_robot/status/1904534311589785885
https://www.figure.ai/news/reinforcement-learning-walking
文章来自于“新智元”,作者“编辑部 HXs”。