AI资讯新闻榜单内容搜索-视频世界模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视频世界模型
突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述

突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述

突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述

还记得两年前,AI 生视频可谓是「鬼畜专区」—— 人物多一根手指算基操,走路自带鬼步舞才是常态。结果转眼间,从 OpenAI 的 Sora 到字节跳动的 Seedance,这些模型已经开始一本正经地「模拟世界」了:水会流、球会弹、光影能追踪,俨然一副要当「物理引擎」的架势。

来自主题: AI技术研报
6929 点击    2026-04-24 09:14
打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

近期,利用视频生成模型为机器人构建 “世界模型”,已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令,这类模型能够先 “想象” 出未来的视觉轨迹,再由逆动力学模型(IDM)将生成画面解码为机器人动作,从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力,这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报
8535 点击    2026-03-28 09:50
谢赛宁也玩MC?开源全新世界模型生成多人一致的游戏视角

谢赛宁也玩MC?开源全新世界模型生成多人一致的游戏视角

谢赛宁也玩MC?开源全新世界模型生成多人一致的游戏视角

谢赛宁团队的最新视频世界模型 Solaris,首个多人视频世界模型,能够同时生成多个玩家之间保持一致的第一视角。研究团队发现,目前的视频世界模型仅能处理单人视角,这并不能反映现实世界的真实运作方式,希望能够能够实现多人同步观察一个统一世界。于是,研究团队把视角投向了电子游戏。

来自主题: AI技术研报
5947 点击    2026-03-08 13:23
「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

围绕这一挑战,上海人工智能实验室联合复旦大学、南京大学、南洋理工大学 S-Lab 等单位提出了 LongVie 2—— 一个能够生成长达 5 分钟高保真、可控视频的世界模型框架。

来自主题: AI技术研报
8867 点击    2026-01-01 10:11
上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

AI生成的人物和场景转头就变样,缺乏一致性? nonono,这回不一样了,康康下面的demo! 游戏地图:《塞尔达传说》中的绿色田野

来自主题: AI资讯
8532 点击    2025-08-23 11:54
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型

上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型

上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型

要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。

来自主题: AI技术研报
8890 点击    2025-08-21 11:25
LeCun出手,造出视频世界模型,挑战英伟达COSMOS

LeCun出手,造出视频世界模型,挑战英伟达COSMOS

LeCun出手,造出视频世界模型,挑战英伟达COSMOS

2018 年,LSTM 之父 Jürgen Schmidhuber 在论文中( Recurrent world models facilitate policy evolution )推广了世界模型(world model)的概念,这是一种神经网络,它能够根据智能体过去的观察与动作,预测环境的未来状态。

来自主题: AI技术研报
7797 点击    2025-07-30 10:23
视频世界模型JEPA‑2与Meta AI的具身智能系统

视频世界模型JEPA‑2与Meta AI的具身智能系统

视频世界模型JEPA‑2与Meta AI的具身智能系统

JEPA-2(V-JEPA 2)是Meta最新推出的视频世界模型,采用视图嵌入预测(Joint Embedding Predictive Architecture)框架进行自监督预训练。

来自主题: AI资讯
7794 点击    2025-07-01 10:30