AI资讯新闻榜单内容搜索-视频世界模型

全球首创！AI看一眼视频就能「读出」双手，三个世界第一

不教AI认手,而是从视频世界模型里直接「读」出双手:三大基准SOTA,让百万小时野生视频第一次能变成机器人的操作教材。

来自主题: AI技术研报

7287 点击 2026-07-13 15:27

CameraSquad：精准运镜，多视角一致——视频世界模型的空间智能新范式

如今，CameraSquad 的出现，让这种多视角一致的视频生成与 3D 世界状态构建成为现实。近日，中国科学院大学高林研究员团队联合卡迪夫大学、香港科技大学和快手可灵团队，提出了一种面向多轨迹并行生成的相机可控视频生成方法 CameraSquad [1]，相关论文已被 ACM SIGGRAPH 2026 录用。

来自主题: AI技术研报

8013 点击 2026-06-21 10:32

达摩院发布世界模型评测基准，自家模型一个都没上榜......

达摩院联合高校推出WorldOlympiad评测基准，跳出传统视频“唯画质”的评价逻辑，以物理真实性、三维几何一致性、长时序交互保真度三大维度，搭配游戏、机器人、通用实景三大场景，打造一套全方位的视频世界模型评测体系。

来自主题: AI技术研报

9358 点击 2026-06-17 14:28

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

随着视频生成技术的发展，模型正在从短视频片段合成，向流式长视频生成演进。然而，仅仅做到视觉上的逼真是不够的。一个功能完备的视频世界模型，必须能够在长时序交互中保持稳定的内部状态，并遵循真实世界的物理定律与逻辑规则。

来自主题: AI技术研报

9172 点击 2026-06-11 14:30

ICML 2026 | 计算所联合ETH研究者提出WorldCache，视频世界模型近似无损提速3.7 倍

如果说扩散世界模型的瓶颈，是每一步去噪都要把同一个大 Transformer 再跑一遍，那么 WorldCache 的思路就是：不要再把所有 Token、所有时间步都当成同一件事。这篇工作把 “哪些内容适合缓存”和“哪些时刻必须重算” 拆开处理，在不重新训练模型、几乎不增加额外显存的前提下，把缓存真正做成了一套更贴合世界模型结构的推理策略。

来自主题: AI技术研报

8032 点击 2026-06-03 10:02

突破算力瓶颈！港大俞益洲团队发布首篇「高效视频世界模型」全面综述

还记得两年前，AI 生视频可谓是「鬼畜专区」—— 人物多一根手指算基操，走路自带鬼步舞才是常态。结果转眼间，从 OpenAI 的 Sora 到字节跳动的 Seedance，这些模型已经开始一本正经地「模拟世界」了：水会流、球会弹、光影能追踪，俨然一副要当「物理引擎」的架势。

来自主题: AI技术研报

7700 点击 2026-04-24 09:14

视频世界模型跑长序列不「崩」了！用光流约束+历史记忆+多步训练，让动态场景稳如磐石

视频世界模型跑久了容易“散架”——要么人不动了，要么场景崩了。

来自主题: AI技术研报

6377 点击 2026-04-17 09:12

打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

近期，利用视频生成模型为机器人构建 “世界模型”，已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令，这类模型能够先 “想象” 出未来的视觉轨迹，再由逆动力学模型（IDM）将生成画面解码为机器人动作，从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力，这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报

9100 点击 2026-03-28 09:50

谢赛宁也玩MC？开源全新世界模型生成多人一致的游戏视角

谢赛宁团队的最新视频世界模型 Solaris，首个多人视频世界模型，能够同时生成多个玩家之间保持一致的第一视角。研究团队发现，目前的视频世界模型仅能处理单人视角，这并不能反映现实世界的真实运作方式，希望能够能够实现多人同步观察一个统一世界。于是，研究团队把视角投向了电子游戏。

来自主题: AI技术研报

6442 点击 2026-03-08 13:23

VerseCrafter：给视频世界模型装上4D方向盘，精准运镜控物

视频世界模型领域又迎来了新的突破！

来自主题: AI技术研报

9252 点击 2026-01-19 08:55

AI资讯新闻榜单内容搜索-视频世界模型

全球首创！AI看一眼视频就能「读出」双手，三个世界第一

CameraSquad：精准运镜，多视角一致——视频世界模型的空间智能新范式

达摩院发布世界模型评测基准，自家模型一个都没上榜......

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

ICML 2026 | 计算所联合ETH研究者提出WorldCache，视频世界模型近似无损提速3.7 倍

突破算力瓶颈！港大俞益洲团队发布首篇「高效视频世界模型」全面综述

视频世界模型跑长序列不「崩」了！用光流约束+历史记忆+多步训练，让动态场景稳如磐石

打破具身世界模型可执行性鸿沟 ！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

谢赛宁也玩MC？开源全新世界模型生成多人一致的游戏视角

VerseCrafter：给视频世界模型装上4D方向盘，精准运镜控物

打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来