AI资讯新闻榜单内容搜索-CVPR

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一，但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今，合成数据集正成为一种新兴的，用于替代现实世界数据的方法，但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频，而这并不适用于人群的视频识别任务。

来自主题: AI技术研报

9471 点击 2024-06-01 19:06

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

对于烟雾等动态三维物理现象的高效高质量采集重建是相关科学研究中的重要问题，在空气动力学设计验证，气象三维观测等领域有着广泛的应用前景。通过采集重建随时间变化的三维密场度序列，可以帮助科学家更好地理解与验证真实世界中的各类复杂物理现象。

来自主题: AI技术研报

9136 点击 2024-05-05 19:37

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能｜港中文&腾讯

万万没想到，与任务无直接关联的多模态数据也能提升Transformer模型性能。

来自主题: AI技术研报

5507 点击 2024-05-04 19:29

CVPR 2024 Highlight | 基于单曝光压缩成像，不依赖生成模型也能从单张图像中重建三维场景

传统的 3D 重建算法需要不同视角拍摄的多张图片作为输入从而重建出 3D 场景。近年来，有相当多的工作尝试从单张图片构建 3D 场景。然而，绝大多数此类工作都依赖生成式模型（如 Stable Diffusion），换句话说，此类工作仍然需要通过预训练的生成式模型推理场景中的 3D 信息。

来自主题: AI技术研报

11423 点击 2024-05-03 21:00

CVPR 2024 | 文本一键转3D数字人骨骼动画，阿尔伯塔大学提出MoMask框架

想象一下，你仅需要输入一段简单的文本描述，就可以生成对应的 3D 数字人动画的骨骼动作。而以往，这通常需要昂贵的动作捕捉设备或是专业的动画师逐帧绘制。这些骨骼动作可以进一步的用于游戏开发，影视制作，或者虚拟现实应用。来自阿尔伯塔大学的研究团队提出的新一代 Text2Motion 框架，MoMask，正在让这一切变得可能。

来自主题: AI技术研报

8192 点击 2024-04-29 20:45