AI资讯新闻榜单内容搜索-CVPR

CVPR 2026 | 还在为AI「鬼画符」发愁？TextPecker即插即用破解文字渲染难题

在生成式 AI 浪潮中，文生图技术已实现跨越式发展，在视觉呈现上达到了前所未有的高度。然而，在生成图像中准确合成拼写正确、结构规范且风格协调的文字 —— 视觉文本渲染（Visual Text Rendering, VTR），至今仍是该领域尚未攻克的核心难题。

来自主题: AI技术研报

9998 点击 2026-03-12 14:10

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

大家是否有这样的感觉？给定几张场景中拍摄的图片，往往能够在脑海中想象出这个场景的三维布局，然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示，限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报

8992 点击 2026-03-11 09:25

10秒视频token超5万，O(n²)跑不动？用后训练线性化框架实现1.71倍加速，推理成本大降｜CVPR'2026

视频生成进入大规模时代，但计算成本也炸了。

来自主题: AI技术研报

6573 点击 2026-03-10 14:32

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型，VideoWorld 系列工作在业界首次实现无需依赖语言模型，即可认知世界。

来自主题: AI技术研报

6351 点击 2026-03-09 14:29

黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队

刚刚，Luma AI甩出全新模型Uni-1，正面对标谷歌Nano Banana Pro和GPT Image 1.5。Uni-1是一个统一的图像理解与生成模型。在官方展示中，Uni-1具备角色姿态迁移、故事板生成、草稿+材质结合参考生成、草稿转漫画、多参考图场景合成、草稿引导的照片编辑、UV贴图生成、带有文字的贺卡海报生成等诸多能力。

来自主题: AI资讯

9809 点击 2026-03-06 15:41