机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025
5749点击    2025-07-22 14:07

如何让AI像人一样,仅凭少量演示,就能稳健适应复杂多变的真实场景?


美国东北大学和波士顿动力RAI提出了HEP(Hierarchical Equivariant Policy via Frame Transfer)框架,首创“坐标系转移接口”,让机器人学习更高效、泛化更灵活。


机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025


总的来说,HEP框架具有以下亮点:


  • 极简高效的分层结构高层负责全局目标设定,低层自主在本地坐标下优化动作,显著提升操作的灵活性与效率;


  • 空间对称性自然泛化模型自动适应目标平移、旋转等变化,极大降低泛化对数据量的依赖;


  • 创新型体素编码器三维视觉信息高效表达,兼顾细节还原与计算速度。


机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025


论文已被ICML2025收录。


核心创新


在机器人智能操作领域,数据稀缺和泛化难题长期困扰着AI的落地应用。大多数方法或依赖大量数据,或在环境稍有变化时表现失灵。

而HEP框架使用了一种用于层级策略学习的框架转换接口,该接口使用高级代理的输出作为低级代理的坐标系,能够在保持灵活性的同时提供强大的归纳偏差


机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025


简单地说,HEP 基于两个核心思想:分层策略结构“坐标系转移接口”,高层策略仅需给出任务的“参考坐标”,低层策略在此基础上自主优化执行细节。


  • 高层策略:负责通过预测一个“关键姿态”(即一个目标 3D 平移)来进行全局、长时程规划,该关键姿态作为子目标。


  • 低层策略:在以关键姿态为锚点的局部坐标系中生成细粒度的运动轨迹。


机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025


而“坐标系转移接口”具有以下特点:


  • 传递泛化能力:高层的泛化能力可以传递到低层。


  • 软约束:局部轨迹优化。


  • 归纳偏差:自然泛化到新姿态。


这样的设计不仅释放了低层的灵活性,也将高层的泛化能力、抗干扰性自洽地传递到底层,实现了“泛化性与鲁棒性”的一体式提升。


效果展示


为验证HEP框架的有效性,研究团队在RLBench上的30个模拟任务中进行了测试——包括高精度任务、长时程任务和关节物体操作——并在真实机器人上通过3个真实世界操作任务进一步验证。


机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025


结果显示:


分层策略在复杂长程任务上优势显著


在真实机器人上,HEP分层框架仅用30条演示数据,就学会了包括移锅盖、加清洁剂、擦洗等多步协作的鲁棒“洗锅”任务,明显优于非分层方法。


机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025


坐标系转移接口:泛化性与鲁棒性的传递桥梁


在Pick&Place任务上,HEP仅凭一次演示,低层扩散模型即可实现1-shot泛化学习,显著提升了数据效率。


证明了坐标系转移接口能将高层对空间变化的适应能力无损传递至低层,策略整体更易扩展至新场景。


机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025


并且,在环境变化和引入无关物体的扰动测试下,HEP成功率较传统方法提升高达60%。


机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025


接口设计带来未来扩展可能


坐标系转移接口对低层策略仅施加软约束,这不仅保证了灵活性,也为未来引入VLM或Cross-embodiment等多模态、跨平台高层策略作为决策规划器提供了天然接口。


一句话结论:坐标系转移接口不仅实现了高层泛化性和鲁棒性的无损传递,还为多模态智能体的开放性集成与泛化部署打开了新路径。


论文地址:https://openreview.net/pdf?id=nAv5ketrHq


项目代码:https://codemasterzhao.github.io/HierEquiPo.github.io/


文章来自于微信公众号“量子位”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md