AI资讯新闻榜单内容搜索-CV

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: CV
ECCV 2024 | 比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

ECCV 2024 | 比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

ECCV 2024 | 比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

来自主题: AI技术研报
7758 点击    2024-09-06 11:59
ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成

ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成

ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成

在 ECCV 2024 中,来自南洋理工大学 S-Lab、上海 AI Lab 以及北京大学的研究者提出了一种原生 3D LDM 生成框架。

来自主题: AI技术研报
7713 点击    2024-08-25 12:47
ECCV 2024 | 机器遗忘之后,扩散模型真正安全了吗?

ECCV 2024 | 机器遗忘之后,扩散模型真正安全了吗?

ECCV 2024 | 机器遗忘之后,扩散模型真正安全了吗?

在人工智能领域,图像生成技术一直是一个备受关注的话题。近年来,扩散模型(Diffusion Model)在生成逼真且复杂的图像方面取得了令人瞩目的进展。然而,技术的发展也引发了潜在的安全隐患,比如生成有害内容和侵犯数据版权。这不仅可能对用户造成困扰,还可能涉及法律和伦理问题。

来自主题: AI技术研报
9510 点击    2024-08-25 11:30
北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024

北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024

北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024

只用提示词,多模态大模型就能更懂场景中的人物关系了。

来自主题: AI技术研报
9702 点击    2024-08-13 16:56
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型

ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型

ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型

三维数字人生成和编辑在数字孪生、元宇宙、游戏、全息通讯等领域有广泛应用。传统三维数字人制作往往费时耗力,近年来研究者提出基于三维生成对抗网络(3D GAN)从 2D 图像中学习三维数字人,极大提高了数字人制作效率。

来自主题: AI资讯
4316 点击    2024-08-12 17:55