苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍
6184点击    2024-12-30 19:30

苹果要搞人形机器人这事儿现在传得沸沸扬扬。


最近他们确实有新动作——开发了一套机器人感知系统!


系统名为ARMOR,软硬件协同增强机器人的“空间意识”,能动态防碰撞的那种。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


硬件方面,ARMOR通过在机器人手臂上安装小型智能深度传感器,为机器人提供几乎完整的环境视图,解决了传统机器人感知中的盲点和遮挡问题。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


软件方面,苹果开发了一个基于Transformer的AI驱动ARMOR-Policy,能够从人类动作中学习,帮助机器人动态规划行动。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


团队还将ARMOR部署在了傅利叶GR-1机器人上进行实验。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


实验结果显示,与使用四个头戴式和外部安装的深度相机(外心感知)相比,ARMOR系统使碰撞降低了63.7%!


与基于采样的运动规划专家系统cuRobo相比,ARMOR-Policy计算效率提升26倍,确保机器人能够迅速行动。


看到苹果在人形机器人方面的布局,网友直呼这是大势所趋:


他们不可能永远依赖智能手机赚钱。从长远来看,机器人市场将远大于智能手机市场。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


ARMOR系统长啥样?


当前,传统人形机器人通常依赖头部或躯干安装的集中式相机和激光雷达进行环境感知,这种方式虽然易于集成且能提供较好的视野范围,但在手臂和手部区域常常存在严重的遮挡问题。


虽然一些研究尝试在机器人终端执行器上集成触觉传感,但这种方案成本高昂,且难以大规模应用于机器人手臂,同时在策略学习中如何有效利用触觉输入仍待解决。


ARMOR系统,提供了一种硬件和软件整合设计,它由来自卡内基梅隆大学的学者Daehwa Kim在苹果实习期间与苹果团队共同开发。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


在硬件方面,与集中式RGBD相机一次性捕捉密集帧中的全部细节不同,团队选择了SparkFun VL53L5CX飞行时间(ToF)激光雷达作为基础传感单元,将稀疏感知分布在多个传感器上,形成“以自我为中心的感知”。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


这种传感器体积为6.4×3.0×1.5mm,可以以15Hz的频率提供8×8分辨率的深度图像,对角视场为63°,测距范围达4000mm。


研究团队在机器人的每个手臂上布置了20个这样的传感器,共计40个传感器形成分布式感知网络。


每四个传感器连接到一个XIAO ESP微控制器,通过I2C总线进行数据读取,再通过USB传输到机器人的板载计算机(Jetson Xavier NX),最后无线传输到配备NVIDIA GeForce RTX 4090 GPU的Linux主机进行处理,确保整个系统能够维持15Hz的刷新率。


在软件方面,研究团队开发了基于Transformer编码器-解码器架构的ARMOR-Policy,类似于动作分块Transformer(ACT)。


该策略通过模仿学习从无碰撞的人类运动演示中学习。


为了训练这个策略,研究团队使用了AMASS数据集中的311922个人类真实运动序列(约86.6小时),这些数据包含了各种相关的人类姿态,如操作、舞蹈和社交行为等。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


团队将这些人类动作轨迹重定向到机器人的关节配置上,并在轨迹周围生成紧凑的障碍物,确保轨迹本身不发生碰撞。


训练数据的生成采用了三种策略:避障运动、紧急停止和无碰撞运动。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


ARMOR-Policy的网络架构设计考虑到了运动规划可能存在多个有效解的特点。通过引入额外的编码器层来推断潜在变量z,使策略能够通过调整z生成不同的运动轨迹候选。


在推理阶段,系统会并行计算N个候选轨迹,并通过最小化机器人与点云之间的距离来选择最优路径。网络输入包括潜在变量z、当前和目标关节位置(28维向量),以及40个ToF激光雷达传感器的深度图像数据。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


深度图像通过修改后的单通道ResNet18骨干网络处理,提取512维特征。整个网络架构包含约84M参数。


实验验证显示,ARMOR系统在多个方面都优于现有方案。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


与使用四个头戴式和外部安装的深度相机(外部感知)的传统策略相比,ARMOR系统在避障性能上取得了显著提升,碰撞降低63.7%,成功率提升78.7%。


同时,与基于采样的运动规划专家系统cuRobo相比,ARMOR-Policy表现出更好的性能,碰撞减少31.6%,成功率提高16.9%,计算效率更是提升了26倍。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


研究团队还通过在傅利叶GR-1人形机器人上部署28个ToF激光雷达,实际验证了ARMOR系统在真实环境中的应用可行性,系统能够实现15Hz的实时避障轨迹更新。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


“苹果做机器人几乎是必然的”


最近,关于苹果发力人形机器人的爆料频出。


比如彭博社爆料,苹果正在寻找其“下一个重大项目”,机器人正是其关注的领域之一。苹果工程团队正在开发多种家庭机器人设备以及可能增强家庭机器人实用性的AI软件和功能。


而苹果机器人研发活动由硬件工程部门和John Giannandrea领导的AI与机器学习团队共同进行。


更有爆料指出,苹果将优先打造桌面机器人,它将作为“家庭指挥中心”,可用于 FaceTime视频通话以及家庭安全监控。


这一系列举动也引发了网友大量讨论。


有网友分析,苹果在人形机器人赛道的布局,几乎是必然的:


苹果人形机器人?这不仅是可能的,几乎是必然的。凭借他们的设计理念和生态系统整合,他们将为个人机器人设定一个高标准。


随着智能手机的逐渐淘汰,机器人确实有可能成为下一个普遍存在的技术。想象一下,Siri体现在一个时尚的人形助手中,这将是一个游戏规则的改变者!


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


这种分析立马遭到其他网友反驳,揭老底:


苹果之前也吵吵着要做自动驾驶汽车,但最后还是放弃了。虽然苹果有能力开发人形机器人,但会不会真做还是不太清楚。


苹果偏好主导市场,不喜欢面对激烈的竞争,而人形机器人和AI市场将极具竞争性。


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍


那么,你看好苹果做人形机器人吗?


论文链接:https://arxiv.org/pdf/2412.00396v1


参考链接:https://x.com/Dr_Singularity/status/1873374876867723435


文章来自于微信公众号“量子位”,作者“西风”


苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI