AI TNT— 让一部分先用AI实现商业化

Meta新研究挑战CV领域基操：ViT根本不用patch，用像素做token效果更佳

下一代视觉模型会摒弃patch吗？Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构，让Transformer直接学习单个像素而不是16×16的patch，结果在多个下游任务中取得了全面超越ViT模型的性能。

来自主题: AI技术研报

3839 点击 2024-07-09 16:03

ECCV 2024揭榜，录用率或创新低！2395篇论文中选，网友晒出成绩单

两年一届的ECCV录用结果终于揭晓了！刚刚，ECCV组委会公布了录用论文名单，共有2395篇论文被录用。

来自主题: AI资讯

7837 点击 2024-07-02 15:18

导师爆料：这篇CVPR最佳学生论文，从想法到成稿只用一个月，源自业余灵感

按部就班 vs. 好奇心驱动，哪个更容易出研究成果？

来自主题: AI资讯

9069 点击 2024-06-22 22:53

1.2万人朝圣CVPR，华人学者夺最佳论文！Sora舵手火爆演讲成大型追星现场

一年一度CVPR最佳论文放榜了！刚刚结束开幕演讲上，公布了2篇最佳论文、2篇最佳学生论文、荣誉提名等奖项。值得一提的是，今年北大上交摘得最佳论文提名桂冠，上科大夺得最佳学生论文。

来自主题: AI资讯

6963 点击 2024-06-21 13:53

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

对于烟雾等动态三维物理现象的高效高质量采集重建是相关科学研究中的重要问题，在空气动力学设计验证，气象三维观测等领域有着广泛的应用前景。通过采集重建随时间变化的三维密场度序列，可以帮助科学家更好地理解与验证真实世界中的各类复杂物理现象。

来自主题: AI技术研报

7711 点击 2024-05-05 19:37

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能｜港中文&腾讯

万万没想到，与任务无直接关联的多模态数据也能提升Transformer模型性能。

来自主题: AI技术研报

4321 点击 2024-05-04 19:29

CVPR 2024 | 文本一键转3D数字人骨骼动画，阿尔伯塔大学提出MoMask框架

想象一下，你仅需要输入一段简单的文本描述，就可以生成对应的 3D 数字人动画的骨骼动作。而以往，这通常需要昂贵的动作捕捉设备或是专业的动画师逐帧绘制。这些骨骼动作可以进一步的用于游戏开发，影视制作，或者虚拟现实应用。来自阿尔伯塔大学的研究团队提出的新一代 Text2Motion 框架，MoMask，正在让这一切变得可能。

来自主题: AI技术研报

6452 点击 2024-04-29 20:45

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

指代分割 (Referring Image Segmentation，RIS) 是一项极具挑战性的多模态任务，要求算法能够同时理解精细的人类语言和视觉图像信息，并将图像中句子所指代的物体进行像素级别的分割。

来自主题: AI技术研报

8522 点击 2024-04-28 13:46

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

指代分割 (Referring Image Segmentation，RIS) 是一项极具挑战性的多模态任务，要求算法能够同时理解精细的人类语言和视觉图像信息，并将图像中句子所指代的物体进行像素级别的分割。

来自主题: AI技术研报

4618 点击 2024-04-26 17:24

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

图像融合的目的是将同一场景中不同传感器捕获的多源图像的互补信息整合到单个图像上。这种方式通常被用于提取图片重要信息和提高视觉质量。

来自主题: AI技术研报

3356 点击 2024-04-24 10:00