AI资讯新闻榜单内容搜索-视频世界模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视频世界模型
CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式

CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式

CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式

如今,CameraSquad 的出现,让这种多视角一致的视频生成与 3D 世界状态构建成为现实。近日,中国科学院大学高林研究员团队联合卡迪夫大学、香港科技大学和快手可灵团队,提出了一种面向多轨迹并行生成的相机可控视频生成方法 CameraSquad [1],相关论文已被 ACM SIGGRAPH 2026 录用。

来自主题: AI技术研报
7491 点击    2026-06-21 10:32
达摩院发布世界模型评测基准,自家模型一个都没上榜......

达摩院发布世界模型评测基准,自家模型一个都没上榜......

达摩院发布世界模型评测基准,自家模型一个都没上榜......

达摩院联合高校推出WorldOlympiad评测基准,跳出传统视频“唯画质”的评价逻辑,以物理真实性、三维几何一致性、长时序交互保真度三大维度,搭配游戏、机器人、通用实景三大场景,打造一套全方位的视频世界模型评测体系。

来自主题: AI技术研报
8904 点击    2026-06-17 14:28
MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

随着视频生成技术的发展,模型正在从短视频片段合成,向流式长视频生成演进。然而,仅仅做到视觉上的逼真是不够的。一个功能完备的视频世界模型,必须能够在长时序交互中保持稳定的内部状态,并遵循真实世界的物理定律与逻辑规则。

来自主题: AI技术研报
6985 点击    2026-06-11 14:30
ICML 2026 | 计算所联合ETH研究者提出WorldCache,视频世界模型近似无损提速3.7 倍

ICML 2026 | 计算所联合ETH研究者提出WorldCache,视频世界模型近似无损提速3.7 倍

ICML 2026 | 计算所联合ETH研究者提出WorldCache,视频世界模型近似无损提速3.7 倍

如果说扩散世界模型的瓶颈,是每一步去噪都要把同一个大 Transformer 再跑一遍,那么 WorldCache 的思路就是:不要再把所有 Token、所有时间步都当成同一件事。这篇工作把 “哪些内容适合缓存”和“哪些时刻必须重算” 拆开处理,在不重新训练模型、几乎不增加额外显存的前提下,把缓存真正做成了一套更贴合世界模型结构的推理策略。

来自主题: AI技术研报
7240 点击    2026-06-03 10:02
突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述

突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述

突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述

还记得两年前,AI 生视频可谓是「鬼畜专区」—— 人物多一根手指算基操,走路自带鬼步舞才是常态。结果转眼间,从 OpenAI 的 Sora 到字节跳动的 Seedance,这些模型已经开始一本正经地「模拟世界」了:水会流、球会弹、光影能追踪,俨然一副要当「物理引擎」的架势。

来自主题: AI技术研报
7394 点击    2026-04-24 09:14
打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

近期,利用视频生成模型为机器人构建 “世界模型”,已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令,这类模型能够先 “想象” 出未来的视觉轨迹,再由逆动力学模型(IDM)将生成画面解码为机器人动作,从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力,这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报
8910 点击    2026-03-28 09:50
谢赛宁也玩MC?开源全新世界模型生成多人一致的游戏视角

谢赛宁也玩MC?开源全新世界模型生成多人一致的游戏视角

谢赛宁也玩MC?开源全新世界模型生成多人一致的游戏视角

谢赛宁团队的最新视频世界模型 Solaris,首个多人视频世界模型,能够同时生成多个玩家之间保持一致的第一视角。研究团队发现,目前的视频世界模型仅能处理单人视角,这并不能反映现实世界的真实运作方式,希望能够能够实现多人同步观察一个统一世界。于是,研究团队把视角投向了电子游戏。

来自主题: AI技术研报
6230 点击    2026-03-08 13:23
「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

围绕这一挑战,上海人工智能实验室联合复旦大学、南京大学、南洋理工大学 S-Lab 等单位提出了 LongVie 2—— 一个能够生成长达 5 分钟高保真、可控视频的世界模型框架。

来自主题: AI技术研报
9228 点击    2026-01-01 10:11