AI资讯新闻榜单内容搜索-CV

打破视频推理「先看后想」惯性，实现真正的「边看边想」丨CVPR'26

今天的大型视觉语言模型（VLM）做离线视频分析很强，但一到实时场景就尴尬：视频在往前走，模型还在“补作业”。

来自主题: AI技术研报

7551 点击 2026-03-18 14:12

大象秒变挖掘机！三维变形新突破，无需额外训练 | CVPR'26

南京大学与北京大学提出MorphAny3D，无需训练即可让三维生成模型实现跨类别平滑变形。通过创新注意力机制融合源与目标特征，精准控制结构与时序，轻松完成复杂变形，效果远超传统方法。

来自主题: AI技术研报

10550 点击 2026-03-17 14:27

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长，大型视觉语言模型（LVLMs）所需处理的视觉 Token 数量急剧膨胀，推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段，但现有方法普遍依赖注意力权重来判断 Token 重要性，这一路线暗藏两个致命缺陷：

来自主题: AI技术研报

9766 点击 2026-03-17 08:49

CVPR'26 | 以机器人为中心的ToM推理框架，从心智推理到决策行动

吉林大学&微软亚洲研究院等团队提出MindPower框架，让机器人像人一样理解他人想法并主动帮忙，构建了首个以机器人为中心的心智推理评测体系，通过六层推理链条，让AI不仅看懂场景，更能推断意图、做出决策、执行动作，显著提升助人能力。

来自主题: AI技术研报

6983 点击 2026-03-17 08:49

不会拍照有招了！北大彭宇新团队开源首个美学指导大模型Venus，帮你拍好照｜CVPR 2026

你随手拍下一张照片，AI也许只会夸“真好看”，却说不出一句真正有用的建议。

来自主题: AI技术研报

6495 点击 2026-03-16 10:38

CVPR 2026 | 还在为AI「鬼画符」发愁？TextPecker即插即用破解文字渲染难题

在生成式 AI 浪潮中，文生图技术已实现跨越式发展，在视觉呈现上达到了前所未有的高度。然而，在生成图像中准确合成拼写正确、结构规范且风格协调的文字 —— 视觉文本渲染（Visual Text Rendering, VTR），至今仍是该领域尚未攻克的核心难题。

来自主题: AI技术研报

10216 点击 2026-03-12 14:10

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

大家是否有这样的感觉？给定几张场景中拍摄的图片，往往能够在脑海中想象出这个场景的三维布局，然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示，限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报

9507 点击 2026-03-11 09:25

10秒视频token超5万，O(n²)跑不动？用后训练线性化框架实现1.71倍加速，推理成本大降｜CVPR'2026

视频生成进入大规模时代，但计算成本也炸了。

来自主题: AI技术研报

6744 点击 2026-03-10 14:32

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型，VideoWorld 系列工作在业界首次实现无需依赖语言模型，即可认知世界。

来自主题: AI技术研报

6564 点击 2026-03-09 14:29

黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队

刚刚，Luma AI甩出全新模型Uni-1，正面对标谷歌Nano Banana Pro和GPT Image 1.5。Uni-1是一个统一的图像理解与生成模型。在官方展示中，Uni-1具备角色姿态迁移、故事板生成、草稿+材质结合参考生成、草稿转漫画、多参考图场景合成、草稿引导的照片编辑、UV贴图生成、带有文字的贺卡海报生成等诸多能力。

来自主题: AI资讯

10096 点击 2026-03-06 15:41