AI资讯新闻榜单内容搜索-视频生成模型

全新视角看世界模型：从视频生成迈向通用世界模拟器

近年来，视频生成（Video Generation）与世界模型（World Models）已跃升为人工智能领域最炙手可热的焦点。从 Sora 到可灵（Kling），视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」，让人们开始认真讨论：能否把视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。

来自主题: AI技术研报

10267 点击 2026-02-09 14:36

马斯克视频生成模型首次交卷！电影级运镜+音效，免费可玩

xAI“迄今为止最强大的视频音频生成模型”Grok Imagine 1.0版本，正式全面上线。

来自主题: AI资讯

8468 点击 2026-02-04 17:31

硬刚马斯克，超越Sora2的国产模型强势登场了！支持16秒声画同出

今日，来自生数科技的AI视频模型Vidu Q3 Pro登上国际权威AI基准平台Artificial Analysis榜单，位列中国第一，全球第二。这是最新榜单内，首个打入国际第一梯队的国产视频生成模型。

来自主题: AI资讯

10062 点击 2026-01-31 16:14

刚刚，创智+模思发布开源版Sora2，电影级音视频同步生成，打破闭源技术垄断

今天上午，上海创智学院 OpenMOSS 团队联合初创公司模思智能（MOSI），正式发布了端到端音视频生成模型 —— MOVA（MOSS-Video-and-Audio）。

来自主题: AI技术研报

9089 点击 2026-01-30 10:39

从过拟合到通用！ViMoGen开启3D人体动作生成新纪元

随着 AIGC（Artificial Intelligence Generated Content）的爆发，我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而，3D 人体动作生成（3D MoGen）领域却稍显滞后。

来自主题: AI技术研报

9312 点击 2026-01-08 16:13

ControlNet作者张吕敏最新论文：长视频也能实现超短上下文

大部分的高质量视频生成模型，都只能生成上限约15秒的视频。清晰度提高之后，生成的视频时长还会再一次缩短。

来自主题: AI技术研报

10011 点击 2026-01-04 11:38

告别“音画割裂”与“人物崩坏”！AutoMV：首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

现有的AI视频生成模型虽然在短片上效果惊人，但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。

来自主题: AI技术研报

8595 点击 2025-12-30 10:29

挖到M2.1的7个神仙用法，有点上头。。

上周我还在折腾各种图片、视频生成模型，这周又到了编程周。前天MiniMax丢出了个在编程界绝对有分量的模型：MiniMax-M2.1。然后发现就在刚才已经开源了：

来自主题: AI资讯

11300 点击 2025-12-27 10:56

生成不遗忘，「超长时序」世界模型！北大EgoLCD长短时记忆加持

视频生成模型总是「记性不好」？生成几秒钟后物体就变形、背景就穿帮？北大、中大等机构联合发布EgoLCD，借鉴人类「长短时记忆」机制，首创稀疏KV缓存+LoRA动态适应架构，彻底解决长视频「内容漂移」难题，在EgoVid-5M基准上刷新SOTA！让AI像人一样拥有连贯的第一人称视角记忆。

来自主题: AI技术研报

8473 点击 2025-12-25 10:16

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队不藏了！首次开源就揭晓了一个困扰行业已久的问题的答案——为什么往第一阶段的视觉分词器里砸再多算力，也无法提升第二阶段的生成效果？翻译成大白话就是，虽然图像/视频生成模型的参数越做越大、算力越堆越猛，但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比，模型离完全真正可用总是差一段距离。

来自主题: AI技术研报

8566 点击 2025-12-22 17:07