ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
让机器人拥有人一样「潜意识」,英伟达1.5M小模型就能实现通用控制了
3133点击    2024-10-31 15:06

当机器人也有潜意识。


大模型固然性能强大,但限制也颇多。如果想在端侧塞进 405B 这种级别的大模型,那真是小庙供不起大菩萨。近段时间,小模型正在逐渐赢得人们更多关注。这一趋势不仅出现在语言模型领域,也出现在了机器人领域。


昨天晚上,朱玉可和 Jim Fan 团队(英伟达 GEAR 团队)新鲜发布了他们的最新研究成果 HOVER。这是一个仅有 1.5M 参数的神经网络,但它足以控制人形机器人执行多种机体运动。


先来看看效果,将 HOVER 在不同模式下控制的机器人放到一起组成阵列,其中每一台机器人都有自己的控制模式。还挺壮观的!这也佐证了 HOVER 的通用性。你能看出它们的不同之处吗?



无论是 H2O 模式、OmniH2O Mode 模式、还是 ExBody 模式 、HumanPlus 模式,左手和右手的慢动作都直接被 HOVER 大一统了。



实际上,HOVER 就是一个通用型的人形机器人控制器。


HOVER 一作 Tairan He(何泰然)的推文,他是 CMU 机器人研究所的二年级博士生,还是个有 38 万多粉丝的 B 站 up 主(WhynotTV)


据介绍,HOVER 的设计灵感来自人类的潜意识。人类在行走、保持平衡和调整四肢位置时都需要大量潜意识的计算,HOVER 将这种「潜意识」能力融合进了机器人。这个单一模型可以学习协调人形机器人的电机,从而实现运动和操控。


Jim Fan 的推文



  • 论文标题:HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots
  • 论文地址:https://arxiv.org/pdf/2410.21229
  • 项目地址:https://hover-versatile-humanoid.github.io/


HOVER 的训练使用了 NVIDIA Isaac,这是一个由 GPU 驱动的模拟套件,可将物理加速到实时的 1 万倍。按 Jim Fan 的比喻就是说,只需在一张 GPU 卡上运算大概 50 分钟,机器人就像是在虚拟「道场」中经历了一整年的密集训练。


然后,无需微调,就可以将这个神经网络以零样本方式迁移到真实世界。


HOVER 可以接收多种高级运动指令,即所谓的「控制模式(control mode)」,比如:


  • 头部和手部姿势,可通过 Apple Vision Pro 等增强现实设备捕捉;
  • 全身姿势,可通过 MoCap 或 RGB 相机;
  • 全身关节角度:外骨骼;
  • 根速度命令:操纵杆。



这项研究的贡献包括:


  • 一个统一的界面,可让控制者使用任何方便的输入设备来控制机器人;
  • 一种更简单的全身远程操作数据收集方法;
  • 一个上游的视觉 - 语言 - 动作模型,可用于提供运动指令,之后 HOVER 会将其转换为高频的低级运动信号。


HOVER 是如何炼成的?


用于人形机器人的基于目标的强化学习



用户人形机器人控制的命令空间设计


对于腿部运动,根速度或位置跟踪是常用的命令空间。然而,仅仅关注根跟踪会限制人形机器人的全部能力,尤其是对于涉及全身运动的任务。


该团队研究了之前的工作,发现它们提出了一些各不一样的控制模式,并且每种模式通常都是针对某些特定的任务,因此缺乏通用人形机器人控制所需的灵活性。


而该团队的目标是设计一个全面的控制框架,以适应多种多样的场景和各种不同的人形机器人任务。为此,在构建命令空间时,必须满足以下关键标准:


  • 通用性:命令空间应包含大多数现有配置,允许通用控制器替换针对特定任务的控制器,同时还不会牺牲性能或多功能性。并且该空间应具有足够的表现力,以便与现实世界的控制设备交互,包括操纵杆、键盘、动作捕捉系统、外骨骼和虚拟现实 (VR) 头设,如图 1 所示。
  • 原子性:命令空间应由独立的维度组成,从而能够任意组合控制选项以支持各种模式。



基于这些标准,该团队定义了一个用于人形机器人全身控制的统一命令空间。该空间由两个主要控制区域组成 —— 上身和下身控制 —— 并包含三种不同的控制模式:


  • 运动位置跟踪:机器人上关键刚体点的目标 3D 位置;
  • 局部关节角度跟踪:每个机器人电机的目标关节角度;
  • 根跟踪:目标根速度、高度和方向,由滚动、俯仰和偏航角指定。


在如图 1 所示的框架中,该团队引入了一个 one-hot 掩码向量来指定激活命令空间的哪些组件,以便后面跟踪。


如表 1 所示,可以将其它基于学习的人形全身控制的最新研究看作是新提出的统一命令空间的子集,其中每项研究都代表特定的配置。







通过蒸馏实现多模式多功能控制器






实验


研究团队针对以下问题,在 IsaacGym 和 Unitree H1 机器人上开展了广泛的实验:


  • Q1: HOVER 这个通用策略能比那些只针对特定指令训练的策略表现得更好吗?
  • Q2: HOVER 能比其他训练方法更有效地训练多模态仿人机器人控制器吗?
  • Q3: HOVER 能否在真实世界的硬件上实现多功能多模态控制?


与专家策略的对比


该团队在不同控制模式下比较了 HOVER 和相应专家策略的表现。以 ExBody 模式为例,研究团队加入了固定的掩码,让 HOVER 和整个数据集 Q 中的 ExBody 模式可比。



如表 III 和图 3 所示,HOVER 展现出了优越的泛化能力。在每一种指令模式中,HOVER 在至少 7 个指标上超越了之前的专家控制器(表 III 中用粗体值突出显示)。同时,这也意味着即使只关注单一控制模式,从专家策略中提取的策略也比通过强化学习训练出的专家更强。



与通用训练方法的对比


研究团队在八种不同的模式下测量了 HOVER 在跟踪局部和全身位置方面的表现。他们用最大误差(Emax)减去当前误差(E (.)),再除以最大误差(Emax)和最小误差(Emin)之间的差值来计算误差。雷达网图更大,代表模型的跟踪性能更好。实验结果显示,HOVER 在所有 32 个指标和模式中的误差都很低。



在真实世界中的测评


为了测试 HOVER 策略在真实世界中的表现,研究团队设计了定量的跟踪实验和定性的多模态控制实验。


  • 站立时的动作评估


该团队通过跟踪 20 种不同的站立动作来评估 HOVER 的性能,表 V 中的定量指标显示,HOVER 在 12 个指标中的 11 个上超越了专家策略。HOVER 成功跟踪了关节俯仰运动与全身运动,特别是高度动态的跑步动作也能搞定。



机器人的关节可以在 - 0.5 到 0.5 的俯仰角度之间变化



  • 多模态评估


该团队还模拟了真实的生活场景,测试了在突然切换命令时 HOVER 对运动的泛化能力。HOVER 成功地让机器人从 ExBody 模式切换到 H2O 模式,同时在向前行走。


从 ExBody 切换到 H2O 模式


从 HumanPlus 模式切换到 OmniH2O 模式,机器人也能同时执行转弯和向后行走。


从 HumanPlus 切换到 OmniH2O 模式


此外,他们还使用 Vision Pro 随机掩盖头部和手部的位置,进行了远程操作演示,可以看出,机器人的动作非常地丝滑流畅。



有时,它也会出错,比如只追踪了测试者的头部位置,忽略了挥手的动作。



结果表明,HOVER 能够平滑地在不同模式之间追踪动作,展示了其在真实世界场景中的鲁棒性。


文章来自于微信公众号“机器之心”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner