一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

5819点击 2025-04-14 17:14

Figure公司通过强化学习，成功实现机器人的自然步态。利用高效物理模拟器，仅用几小时完成相当于多年训练的数据，训练出的策略无需额外调整即可「零样本」迁移至真实机器人。

现在训练机器人，都不需要真实数据了？

刚刚，Figure提出了一种全新的基于RL的端到端网络。

只需要在纯模拟环境中进行训练，用几个小时生成模拟数据，就能让Figure 02像人类一样自然行走了！

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

该方法的亮点如下：

在模拟环境中运用强化学习，让机器人不断试错，学会像人类一样走路。

通过高保真物理模拟器，仅用几个小时，就模拟出多年的数据。

将模拟中的域随机化与机器人上的高频扭矩反馈相结合，无需微调，就能把模拟环境中的策略应用于真实机器人。

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

更让人惊喜的是，一个神经网络策略就能控制一大批机器人！

通过一个高保真物理模拟器，Figure最新的机器人仅用几个小时，就能模拟出几年的数据。

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

为了把模拟环境的训练成果应用到真实机器人上，团队采用了两种办法。

一是在模拟训练时进行域随机化，让机器人接触不同的物理属性；二是在真实机器人上安装高频扭矩反馈装置。

这样一来，模拟环境中训练好的策略，无需任何微调，就可以「零样本」迁移到真实硬件上。

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

在强化学习中，控制器通过不断试错，根据奖励信号来调整自己的行为。

Figure在高保真模拟环境中训练RL控制器，运行数千个具有不同参数和场景的虚拟人形机器人。

这种多样化的训练，使训练出的策略能直接用在真实的Figure 02机器人上，走出稳健的人类步伐。

Figure基于RL的训练方法，大大缩短了开发时间，在现实世界中表现也很稳定。

强化学习训练

用强化学习方法，在GPU加速的物理模拟环境中，训练行走控制器。

这个模拟环境效率超高，短短几个小时就能收集到相当于数年的模拟训练数据。

在模拟器中，数千个Figure 02机器人并行训练，每个机器人的物理参数都不一样。

它们会遇到各种各样的情况，像不同的地形，执行器动力学变化，以及被绊倒、滑倒和推搡等。

这时，一个神经网络策略学习控制所有的机器人。

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

人形机器人有个很大的优势，它的硬件平台通用性很强，能执行类似人类的任务。

不过，RL训练出来的策略，有时不是最佳的，没办法让机器人走出人类走路的感觉，比如脚跟先着地、脚尖蹬地，手臂摆动和腿部动作的配合。

所以，在训练时，会奖励那些走路轨迹像人的机器人，把偏好融入学习中。

这些轨迹为策略允许生成的行走风格建立了先验条件。

除了走路轨迹像人，研究者还设置了其他奖励条件，比如优化机器人速度跟踪、功耗更低，更好地应对外界干扰和地形变化。

从模拟到现实的跨越

最后一步，是把模拟环境中训练好的策略应用到真实的机器人上。

模拟机器人只是高维机电系统的近似，在模拟环境中训练的策略只能保证在这些模拟机器人上有效，不一定能在真实机器人上正常工作。

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

为解决这个问题，在模拟训练时，采用域随机化技术，随机改变每个机器人的物理属性，让策略能适应各种不同的情况。

这有助于策略零样本泛化到真实机器人上，而无需任何额外的微调。

同时，在真实机器人上，用千赫兹速率扭矩反馈控制，来修正执行器模型的误差。

这样，即使机器人之间有些差异，如地面摩擦力不同，或受到外界推搡，这个策略都具有鲁棒性，能让Figure 02机器人像人一样行走。

可以看到，10个Figure 02机器人用得都是同一个RL神经网络。

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

说明现有的策略不用再做调整，就能推广到大批机器人，对未来的大规模商业应用是个好消息。

Figure Robotics

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

Figure Robotics是一家新兴的机器人公司，专注于开发通用人形机器人，旨在通过先进的人工智能扩展人类能力。

公司专注于构建像人类一样学习和推理的机器人。

Figure Robotics一开始与OpenAI合作，然而在内部人工智能（Helix）方面取得「重大突破」后，于2025年2月结束了合作，Figure Robotics转为自主开发Helix VLA模型。

Figure 02具有肉眼看起来最接近未来成熟形态的外形设计。

简直和威尔史密斯《I,Robot》中的机器人如出一辙，浑圆的面罩模型也避免了恐怖谷效应。

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

身高和体重也完美模拟一个成年男性。

当机器人能像人类一样学会自然行走，是否意味着也能像人一样学会其他「自然」动作？

更加重要的一个「隐喻」是，目前所有的人形机器人都是按照人类的形态打造的。

这更加方便了未来机器人与人类生活的融合。

除了自然行走，机器人还有很多「人类技能」需要学习，但他们已经在路上了。

参考资料：

https://x.com/Figure_robot/status/1904534311589785885

https://www.figure.ai/news/reinforcement-learning-walking

文章来自于“新智元”，作者“编辑部 HXs”。

一套算法控制机器人军团！纯模拟环境强化学习，Figure学会像人一样走路

关键词: AI , 具身智能 , Figure , AI机器人

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner