一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路
4644点击    2025-04-14 17:14

Figure公司通过强化学习,成功实现机器人的自然步态。利用高效物理模拟器,仅用几小时完成相当于多年训练的数据,训练出的策略无需额外调整即可「零样本」迁移至真实机器人。


现在训练机器人,都不需要真实数据了?


刚刚,Figure提出了一种全新的基于RL的端到端网络。


只需要在纯模拟环境中进行训练,用几个小时生成模拟数据,就能让Figure 02像人类一样自然行走了!


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路


该方法的亮点如下:


  • 在模拟环境中运用强化学习,让机器人不断试错,学会像人类一样走路。


  • 通过高保真物理模拟器,仅用几个小时,就模拟出多年的数据。


  • 将模拟中的域随机化与机器人上的高频扭矩反馈相结合,无需微调,就能把模拟环境中的策略应用于真实机器人。


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路


更让人惊喜的是,一个神经网络策略就能控制一大批机器人!


通过一个高保真物理模拟器,Figure最新的机器人仅用几个小时,就能模拟出几年的数据。


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路


为了把模拟环境的训练成果应用到真实机器人上,团队采用了两种办法。


一是在模拟训练时进行域随机化,让机器人接触不同的物理属性;二是在真实机器人上安装高频扭矩反馈装置。


这样一来,模拟环境中训练好的策略,无需任何微调,就可以「零样本」迁移到真实硬件上。


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路


在强化学习中,控制器通过不断试错,根据奖励信号来调整自己的行为。


Figure在高保真模拟环境中训练RL控制器,运行数千个具有不同参数和场景的虚拟人形机器人。


这种多样化的训练,使训练出的策略能直接用在真实的Figure 02机器人上,走出稳健的人类步伐。


Figure基于RL的训练方法,大大缩短了开发时间,在现实世界中表现也很稳定。


强化学习训练


用强化学习方法,在GPU加速的物理模拟环境中,训练行走控制器。


这个模拟环境效率超高,短短几个小时就能收集到相当于数年的模拟训练数据。


在模拟器中,数千个Figure 02机器人并行训练,每个机器人的物理参数都不一样。


它们会遇到各种各样的情况,像不同的地形,执行器动力学变化,以及被绊倒、滑倒和推搡等。


这时,一个神经网络策略学习控制所有的机器人。


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路


人形机器人有个很大的优势,它的硬件平台通用性很强,能执行类似人类的任务。


不过,RL训练出来的策略,有时不是最佳的,没办法让机器人走出人类走路的感觉,比如脚跟先着地、脚尖蹬地,手臂摆动和腿部动作的配合。


所以,在训练时,会奖励那些走路轨迹像人的机器人,把偏好融入学习中。


这些轨迹为策略允许生成的行走风格建立了先验条件。


除了走路轨迹像人,研究者还设置了其他奖励条件,比如优化机器人速度跟踪、功耗更低,更好地应对外界干扰和地形变化。


从模拟到现实的跨越


最后一步,是把模拟环境中训练好的策略应用到真实的机器人上。


模拟机器人只是高维机电系统的近似,在模拟环境中训练的策略只能保证在这些模拟机器人上有效,不一定能在真实机器人上正常工作。


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路


为解决这个问题,在模拟训练时,采用域随机化技术,随机改变每个机器人的物理属性,让策略能适应各种不同的情况。


这有助于策略零样本泛化到真实机器人上,而无需任何额外的微调。


同时,在真实机器人上,用千赫兹速率扭矩反馈控制,来修正执行器模型的误差。


这样,即使机器人之间有些差异,如地面摩擦力不同,或受到外界推搡,这个策略都具有鲁棒性,能让Figure 02机器人像人一样行走。


可以看到,10个Figure 02机器人用得都是同一个RL神经网络。


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路


说明现有的策略不用再做调整,就能推广到大批机器人,对未来的大规模商业应用是个好消息。


Figure Robotics


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路


Figure Robotics是一家新兴的机器人公司,专注于开发通用人形机器人,旨在通过先进的人工智能扩展人类能力。


公司专注于构建像人类一样学习和推理的机器人。


Figure Robotics一开始与OpenAI合作,然而在内部人工智能(Helix)方面取得「重大突破」后,于2025年2月结束了合作,Figure Robotics转为自主开发Helix VLA模型。


Figure 02具有肉眼看起来最接近未来成熟形态的外形设计。


简直和威尔史密斯《I,Robot》中的机器人如出一辙,浑圆的面罩模型也避免了恐怖谷效应。


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路


身高和体重也完美模拟一个成年男性。


当机器人能像人类一样学会自然行走,是否意味着也能像人一样学会其他「自然」动作?


更加重要的一个「隐喻」是,目前所有的人形机器人都是按照人类的形态打造的。


这更加方便了未来机器人与人类生活的融合。


除了自然行走,机器人还有很多「人类技能」需要学习,但他们已经在路上了。


参考资料:

https://x.com/Figure_robot/status/1904534311589785885

https://www.figure.ai/news/reinforcement-learning-walking


文章来自于“新智元”,作者“编辑部 HXs”。


一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

关键词: AI , 具身智能 , Figure , AI机器人
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner