AI资讯新闻榜单内容搜索-计算机视觉

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

基于图神经网络的方法被广泛应用于不同问题并且显著推动了相关领域的进步，包括但不限于数据挖掘、计算机视觉和自然语言处理。考虑到图神经网络已经取得了丰硕的成果，一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展，以及从现有论文中总结经验和产生新的想法。

来自主题: AI资讯

4807 点击 2024-09-09 14:23

ECCV 2024 | 比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而，当这些模型处理较长的视频时，内存消耗可能会显著增加，甚至变得难以承受，并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

来自主题: AI技术研报

9709 点击 2024-09-06 11:59

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

近年来，人物动作生成的研究取得了显著的进展，在众多领域，如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而，现有工作大多只关注动作本身，以场景和动作类别同时作为约束条件的研究依然处于起步阶段。

来自主题: AI技术研报

10199 点击 2024-07-11 20:31

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

人工智能（AI）在过去十年里取得了长足进步，特别是在自然语言处理和计算机视觉领域。然而，如何提升 AI 的认知能力和推理能力，仍然是一个巨大的挑战。

来自主题: AI技术研报

10201 点击 2024-07-01 15:13

微软Florence-2官宣开源，一统视觉基础模型！华人团队联手打造

等了半年，微软视觉基础模型Florence-2终于开源了。它能够根据提示，完成字幕、对象检测、分割等各种计算机视觉和语言的任务。网友们实测后，堪称「游戏规则改变者」。

来自主题: AI技术研报

10000 点击 2024-06-24 15:41

无论真实还是AI视频，「摩斯卡」都能重建恢复4D动态可渲染场景

从任意单目视频重建可渲染的动态场景是计算机视觉研究领域的一个圣杯。

来自主题: AI技术研报

10533 点击 2024-06-21 19:54

CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

360 度场景生成是计算机视觉的重要任务，主流方法主要可分为两类，一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识，这类方法无法有效生成多样的 360 度视角，导致场景内主要的目标被多次重复生成，如图 1 的床和雕塑。

来自主题: AI技术研报

10125 点击 2024-06-11 10:02

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

用卷积能做出一样好的效果。

来自主题: AI资讯

9881 点击 2024-06-01 18:57

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期致力于深度学习、多模态、计算机视觉等研究领域。

来自主题: AI技术研报

10728 点击 2024-05-27 16:24

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

近年来，「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用，通过大规模训练得到的视觉基础网络（如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等）已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报

10502 点击 2024-05-22 13:33