1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26
6133点击    2026-03-31 14:40

全球首个1毫秒级人体动作捕捉系统FlashCap,通过闪烁LED与事件相机结合,实现1000Hz超高帧率捕捉。无需昂贵设备或强光环境,低成本穿戴服即可精准捕捉极速动作。团队同步开源715万帧的FlashMotion数据集与多模态模型ResPose,显著提升运动分析精度,推动体育、VR与机器人领域迈向高动态智能新阶段。


在顶级体育赛事中,决定胜负的往往在毫秒之间。


然而,为了在短跑、攀岩、雪橇等极速运动中捕捉这些稍纵即逝的瞬间,业界目前的妥协方案,往往是动辄部署造价数十万、且对光照、带宽、存储要求极其苛刻的高速光学相机或是精度与稳定性要求极高、部署与维护成本同样不菲的专用计时设备。


那么,能否用一套低成本、且摆脱强环境光依赖的人体动作捕捉服,实现1000Hz的毫秒级人体动捕?


现有人体动作捕捉服达不到1000Hz毫秒级动捕,为了打破这个帧率天花板,厦门大学ASC实验室与上海科技大学另辟蹊径,联合提出了业界首个基于闪烁LED灯与事件相机的毫秒级动捕系统FlashCap


目前,该工作已正式被计算机视觉顶会CVPR 2026接收。为推动该领域的持续突破,研究团队将全面开源核心成果:开放高达715万帧的高频动作捕捉数据集;动静结合的多模态超高时间分辨率动捕算法ResPose


1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26


论文链接: https://arxiv.org/abs/2603.19770

论文主页: http://www.lidarhumanmotion.net/flashcap/


1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

图1:FlashCap效果图


为什么动作捕捉需要迈入1000Hz 时代?


在竞速体育、高保真虚拟现实(VR)以及精密机器人遥操作等领域,人体的高速微动态(如急速挥手、瞬间发力或高频震颤)往往发生在几毫秒之间。


传统的120Hz动作捕捉系统在应对此类高速运动时,会产生严重的帧间信息丢失。现有方案通常依赖时域插值算法来重建缺失的运动轨迹,但这不可避免地会引入显著的插值误差,导致动作过度平滑或产生违背物理规律的畸变。


因此,想要真正实现毫秒级的高逼真人体动态还原,突破1000Hz的捕捉帧率是一个绕不开的核心门槛。


1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

图2:插值结果与1000Hz GroundTruth对比图


为什么1000Hz的动作捕捉这么难?


现有的公开人体运动数据集,标注帧率最高只能勉强撑到120Hz


对于高速动态运动,容易产生严重的插值误差


而如果直接使用传统的工业级高速相机(>1000Hz),则面临着让人头疼的「三高」问题:


  1. 极高的成本: 一台NAC级别的高速相机动辄超过4.5万美元,是事件相机的9倍之多 。
  2. 极高的光照门槛: 必须在强光环境下才能保证画面不糊。
  3. 极高的硬件负担: 巨大的带宽和存储需求,让日常部署几乎成为不可能。


其他诸如惯性传感器(IMU)方案,虽然摆脱了光照限制,但存在不可避免的积分漂移误差,且频率也难以突破千赫兹大关。


FlashCap

给关节点打上摩斯密码


面对这个死胡同,研究团队另辟蹊径,提出了 FlashCap 方案。这套便携式设备的原理极其巧妙:


  1. 穿戴闪烁LED: 在人体的关键骨骼节点上佩戴微型 LED 发光模块 。
  2. 频闪编码身份: 每个LED会以极高的频率(例如4000Hz)进行闪烁,并拥有独特的亮暗时间配比(On-time / Off-time),就好比给每个关节发了一套专属的摩斯密码。
  3. 事件相机精准捕获: 使用高时间分辨率、极低带宽的事件相机,异步捕获这些极速的明暗变化信号。


通过配套的自动化标注流水线(密度聚类、频率识别、噪声过滤),FlashCap能够直接从杂乱的事件流中精准解析出原生的1000Hz人体2D姿态标签 。 无需十万美元的设备,无需强环境光照,更没有巨大的数据存储压力,高精度、低成本的1000Hz的真值数据就此制作完毕。


1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

图3:FlashCap系统图


FlashMotion数据集


基于FlashCap系统,研究团队采集并开源了FlashMotion数据集。不仅多模态(囊括事件流、RGB、LiDAR点云和 IMU),更在数据维度上完成了真正的降维打击:


  • 1000Hz标注帧率: 将公开姿态数据集的时间分辨率上限,一口气提升了将近一个数量级(从120Hz飙升至 1000Hz)。
  • 715万标注帧: 包含240个动作序列,覆盖20名受试者的11大类快速动作(如极速踢腿、快速交叉双手、瞬间跳跃等)。


1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

表1:FlashMotion数据集与现有数据集对比


ResPose

动静结合,巧妙搞定高速微动态


空有标杆级的高频数据,如果没有匹配的算法,依然是高射炮打蚊子。面对1000Hz的超高频数据流,传统基于慢速RGB帧逐帧计算的姿态估计模型,往往会面临算力与时延的双重崩塌。


为此,研究团队设计了一个极其优雅且高效的基础模型ResPose,核心算法哲学可以概括为八个字:RGB定大局,Event 抓微调:


  1. RGB分支(全局锚点): 利用低频的 RGB 图像提取出稳定的人体结构先验,确立低频但较为准确的静态锚点。
  2. Event分支(残差): 引入混合SNN-CNN编码器专门处理高频事件流。模型会在 RGB 锚点周围进行局部截取,精准捕捉微秒级的运动残差。
  3. 多模态Transformer融合: 将低频全局结构与高频局部残差送入Transformer进行时空特征对齐,并施加严格的运动学约束,输出平滑且精准的毫秒级高频姿态。


1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

图3:ResPose网络图


实测效果如何?


在超高频姿态估计任务中,ResPose交出了一份极其亮眼的答卷:相较于传统先提RGB特征后强行插值的方案,它将平均关节位置误差(MPJPE)大幅砍掉了约40%


输出的运动轨迹彻底告别了算法脑补带来的抖动与穿模,真正做到了如丝般顺滑且完美贴合真实物理动态。


而在更硬核的精准动作计时(PMT)任务中(例如要求精准定格拳击手挥拳击中目标的那一毫秒):


  • 传统的 RGB 方法(如 ViTPose) 面对高速动态直接捕捉缺失,时间误差高达 50 毫秒以上 。
  • 常规多模态方案: 同样难以招架 1000Hz 的高频特征对齐,纷纷败下阵来。
  • ResPose凭借优雅的动静融合架构一骑绝尘,直接将时间误差硬生生压缩到了个位数毫秒级别(例如拳击动作仅 4.8 毫秒误差)!


1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

表2:超高频姿态估计任务。


1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

表3:精准动作计时任务估计时间的平均误差(单位:毫秒)。


探寻人类高速动作的极限


长久以来,人体姿态估计(HPE)社区一直被低频数据集所束缚,忽视了真正决定运动胜负和动作自然度的高速微动态 。


FlashCap以一种极具极客精神和实用主义的方式,推开了通往超高时间分辨率运动理解的大门。这不仅对于体育赛事的极致分析具有颠覆性意义,也将为下一代具身智能(如高动态机器狗、人形机器人的精细控制)提供极其宝贵的数据基石。


作者介绍


论文第一作者来自厦门大学空间感知与计算实验室(ASC Lab)2024级硕士生吴泽凯、2023级硕士生范书琪,通讯作者为厦门大学沈思淇副教授,并由刘梦茵、罗裕华、林心成、颜明、吴俊豪、林修弘、马月昕研究员(上海科技大学)、温程璐教授、许岚研究员(上海科技大学)、王程教授共同合作完成。研究团队长期聚焦于3D人体姿态估计、快速人体运动捕捉及相关多模态数据集构建。


参考资料:

https://asc.xmu.edu.cn/


文章来自于"新智元",作者 "LRST"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner