AI资讯新闻榜单内容搜索-CVPR

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: CVPR
CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长,大型视觉语言模型(LVLMs)所需处理的视觉 Token 数量急剧膨胀,推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段,但现有方法普遍依赖注意力权重来判断 Token 重要性,这一路线暗藏两个致命缺陷:

来自主题: AI技术研报
8900 点击    2026-03-17 08:49
CVPR'26 | 以机器人为中心的ToM推理框架,从心智推理到决策行动

CVPR'26 | 以机器人为中心的ToM推理框架,从心智推理到决策行动

CVPR'26 | 以机器人为中心的ToM推理框架,从心智推理到决策行动

吉林大学&微软亚洲研究院等团队提出MindPower框架,让机器人像人一样理解他人想法并主动帮忙,构建了首个以机器人为中心的心智推理评测体系,通过六层推理链条,让AI不仅看懂场景,更能推断意图、做出决策、执行动作,显著提升助人能力。

来自主题: AI技术研报
6159 点击    2026-03-17 08:49
CVPR 2026 | 还在为AI「鬼画符」发愁?TextPecker即插即用破解文字渲染难题

CVPR 2026 | 还在为AI「鬼画符」发愁?TextPecker即插即用破解文字渲染难题

CVPR 2026 | 还在为AI「鬼画符」发愁?TextPecker即插即用破解文字渲染难题

在生成式 AI 浪潮中,文生图技术已实现跨越式发展,在视觉呈现上达到了前所未有的高度。然而,在生成图像中准确合成拼写正确、结构规范且风格协调的文字 —— 视觉文本渲染(Visual Text Rendering, VTR),至今仍是该领域尚未攻克的核心难题。

来自主题: AI技术研报
9311 点击    2026-03-12 14:10
CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

大家是否有这样的感觉?给定几张场景中拍摄的图片,往往能够在脑海中想象出这个场景的三维布局,然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示,限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报
8440 点击    2026-03-11 09:25
CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型,VideoWorld 系列工作在业界首次实现无需依赖语言模型,即可认知世界。

来自主题: AI技术研报
5657 点击    2026-03-09 14:29
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队

黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队

黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队

刚刚,Luma AI甩出全新模型Uni-1,正面对标谷歌Nano Banana Pro和GPT Image 1.5。Uni-1是一个统一的图像理解与生成模型。在官方展示中,Uni-1具备角色姿态迁移、故事板生成、草稿+材质结合参考生成、草稿转漫画、多参考图场景合成、草稿引导的照片编辑、UV贴图生成、带有文字的贺卡海报生成等诸多能力。

来自主题: AI资讯
9150 点击    2026-03-06 15:41
CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

近期,大连理工与快手可灵团队推出了 MultiShotMaster—— 一个高度可控的多镜头视频生成框架,该论文向研究社区展示了即使在 1B 左右的小参数量级模型上,也可以实现导演级的镜头调度和连贯叙事,且支持多图参考、主体运动控制。

来自主题: AI技术研报
8494 点击    2026-03-06 15:06
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

当GRPO让大模型在数学、代码推理上实现质变,研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,并被CVPR 2026接收。该研究不只是简单移植2D经验,而是针对3D生成的独特挑战,从奖励设计、算法选择、评测基准到训练范式,做了一套完整的系统性探索。

来自主题: AI技术研报
7541 点击    2026-02-27 10:28