329篇图像、视频生成论文，今年CVPR最火的研究主题是这些

10065点击 2024-06-08 15:57

图像与视频合成、3D 视觉、人体行为识别、视觉与语言推理等研究方向论文最多，属于最热门的方向，体现当前学界对视觉生成、三维感知、人机交互等方向的高度重视。另外，多模态学习、以人为本的设计和自适应机器人可能构成人形机器人的未来。

一年一度的计算机视觉和模式识别会议（CVPR）一直是 CV 界前沿研究的灯塔。

CVPR 2024 录用结果显示，今年共有 2719 篇论文被接收，录用率 23.6%。

那么大模型时代，今年的研究主题有哪些变化？

最近，乔治亚理工学院计算机学院（College of Computing, Georgia Institute of Technology）对 CVPR 2024 录用数据的统计分析，直观呈现了当前计算机视觉领域的研究热点分布情况。

329篇图像、视频生成论文，今年CVPR最火的研究主题是这些

图表显示，论文主题涵盖 36 个主题领域。

从主题分布来看，论文数量最多的是图像和视频合成与生成（Image and video synthesis and generation）主题，一共 329 篇。

其次是三维视觉（3D from multi-view and sensors），一共 276 篇，依旧延续去年顶会的热度。

事实上，上面两个方向也是目前计算机视觉研究的重点。

接下来，人体行为识别（Humans: Face, body, pose, gesture, movement）一共 202 篇。该领域研究在人机交互、机器人、监控等领域有着广泛应用。

视觉、语言与语言推理（Vision, language, and reasoning）一共有 152 篇。这是一个交叉研究方向，旨在帮助计算机像人一样理解、关联视觉和语言信息，完成推理、问答、决策等高层认知任务。

数据表明，这个领域正受到学界高度关注。

比如，视觉推理，让机器具备基于视觉的逻辑推理、常识推理能力，对于智能教育、智慧法庭、辅助决策等高端应用意义重大；

视觉语言导航，可用于室内外机器人导航、头显设备的导航、无人机巡检；

多模态信息融合 (Multimodal Fusion）实现全面、准确的场景理解；

视觉语言预训练模型 (Vision-Language Pretraining)，试图实现更高层次的语义理解和任务处理能力，为人工智能技术的发展和应用拓展了新的边界。

底层视觉（Low-level vision）一共 131 篇。传统的识别检测、分割等基础任务论文数量相对减少，但仍是研究重点。

值得一提的是，一些研究也在探索新型视觉传感器出现后，与之相适应的新视觉数据处理和建模方法。

正如接收论文 “State Space Models for Event Cameras ” 讨论的，事件相机等技术的发展表明，机器人感知周围环境的方式得到了显着增强。这些创新将有助于机器人、自动驾驶在复杂、动态环境中实现更好的导航和交互。

鉴于上半年人形机器人大热，我们也看了看机器人 + AI 。

数据显示，自动驾驶有 87 篇。自动驾驶是机器人领域最热门的应用方向之一，需要视觉感知、决策规划、控制等多项 AI 技术的支持。

机器人（Robotics) 主题一共 29 篇，涉及机器人视觉、导航、操纵等研究，视觉感知是机器人实现智能化的关键。

比如，“DifFlow3D：Towards Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement” 探讨了提高 3D 场景理解可靠性的方法，这对于机器人在不可预测环境中的安全操作至关重要。

Embodied vision: Active agents, simulation 一共 27 篇。看来，通过视觉、动作等多模态交互，让机器人在仿真或真实环境中学习，是一个新兴的研究范式。

正如我们在不少视频中刚看到的，机器人也越来越多地具备同时处理多项任务的能力。

“ManipLLM：Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation” 等论文也呈现出一种转变 —— 集成各种数据类型（文本、视觉、传感器数据）、在环境中执行复杂操作和交互的模型。

“Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households” 直接聚焦于家庭服务机器人中的对抗建模问题，旨在实现更加主动、适应性强的机器人助手。

Video: Action and event understanding，一共 78 篇。对于机器人而言，理解视频中的动作、事件语义，对实现智能人机交互非常关键，仍然是一个核心研究主题。

“Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives” 展示了从多个角度理解人类行为的努力（以人为本的交互），增强了机器人学习和适应人类行为的能力。

Vision + graphics 一共 56 篇。3D 重建、渲染等技术在机器人仿真、VR/AR 等方面有重要应用。

Vision applications and systems 一共 44 篇，机器人是视觉技术的主要应用方向之一。

CVPR 2024 对 AI 和机器人技术的关注，凸显了先进计算模型、感知增强技术以及对人类场景深度理解等方面与机器人系统的逐步整合。这种整合正在为开发更加直觉化、功能更强、适应性更高的机器人铺平道路。

参考链接：https://public.tableau.com/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2

文章来自于微信公众号 “机器之心”，作者 “Sia”

329篇图像、视频生成论文，今年CVPR最火的研究主题是这些

关键词: AI , 视频大模型 , AI论文 , AI学术

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md