AI资讯新闻榜单内容搜索-CV

视频生成不再「断片」：OneStory给模型装上「选择性记忆」，跨镜头讲故事人物场景始终如一丨CVPR'26

最近，来自Meta与University of Copenhagen的研究者提出了OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory（收录于CVPR 2026）。这项工作聚焦于一个核心问题：如何在生成多镜头视频时，有效保留长程跨镜头上下文，从而实现更强的叙事一致性。

来自主题: AI技术研报

7516 点击 2026-04-10 15:36

CVPR 2026｜1分钟单图变4D视频！AI看图直接脑补物理规律

让静态的图片变成三维物体并动起来已经不算新鲜，但如果让图片不仅动起来，还能完美遵循现实世界的物理规律（比如蛋糕的Q弹、沙堆的散落、石雕的坚硬）呢？

来自主题: AI技术研报

6787 点击 2026-04-08 16:27

一句话生成无限逼真3D场景！匹兹堡大学新作直击VLM空间推理软肋丨CVPR'26

VLM看图像描述头头是道，一遇到3D空间推理就“晕菜”。

来自主题: AI技术研报

6828 点击 2026-04-08 09:15

CVPR 2026｜DROID-W：复杂室外动态场景，也能稳定SLAM

SLAM 在自动驾驶、机器人、AR/VR 乃至具身智能系统中都是至关重要的环节，它决定了算法能否在一个陌生环境中一边“看懂世界”，一边“知道自己在哪”。

来自主题: AI技术研报

7933 点击 2026-04-08 09:13

CVPR2026 | 鬼手想点谁就点谁？LaSM让GUI智能体把注意力「收回来」

如果把手机屏幕想象成一个舞台，GUI 智能体就是台下那个 “被授权动手” 的人：它能看懂屏幕上的按钮、输入框和弹窗，能按你的指令去点、去滑、去输入。

来自主题: AI技术研报

10818 点击 2026-04-07 14:28

让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突｜CVPR'26

生成式模型当检索器大材小用效果还不好？

来自主题: AI技术研报

9796 点击 2026-04-07 10:29

1毫秒级，最快的人体动作捕捉服！开源715万帧数据集| CVPR'26

全球首个1毫秒级人体动作捕捉系统FlashCap，通过闪烁LED与事件相机结合，实现1000Hz超高帧率捕捉。无需昂贵设备或强光环境，低成本穿戴服即可精准捕捉极速动作。团队同步开源715万帧的FlashMotion数据集与多模态模型ResPose，显著提升运动分析精度，推动体育、VR与机器人领域迈向高动态智能新阶段。

来自主题: AI技术研报

7191 点击 2026-03-31 14:40