AI资讯新闻榜单内容搜索-视频生成模型

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

就在今天，美团龙猫大模型团队突然开源了商用级数字人视频生成模型 LongCat-Video-Avatar 1.5。在权威评测中，它的用户偏好胜率全面超越 Kling Avatar 2.0、OmniHuman-1.5 和 HeyGen 这三个头部玩家，并且直接以 MIT 协议开放，连商用限制都懒得设。

来自主题: AI资讯

9692 点击 2026-05-22 21:38

ACL 2026 | 赋予视频生成「视觉思维链」：VChain显式建模时空规划与状态演变

当视频生成模型在视觉保真度上不断突破时，一个核心瓶颈正变得愈发清晰：模型是否真正理解了真实世界？能否推理出合理的演变过程？

来自主题: AI技术研报

9561 点击 2026-05-20 15:16

解决视频生成穿帮问题！浙大&微软3000条纯文本让模型理解3D

浙大联合微软亚洲研究院最新提出的World-R1，不改架构、不要3D数据，纯靠强化学习就让视频生成模型学会了“理解”三维世界。World-R1 的出发点很简单：预训练的视频模型里面已经有 3D 知识了，只是“沉睡”着。用强化学习把它叫醒就行。

来自主题: AI技术研报

8763 点击 2026-05-16 13:34

满血版 Seedance 2.0 的成本被 Topview 打下来了！

做过 AI 视频的都懂，除了 Seedance 2.0 本身的高定价，废片所烧掉的 token 算力也是一笔不小的开支。但在 Topview 平台，直接把这笔最大试错成本给重新定义了！热门视频生成模型 Seedance 2.0，加上最新的图片生成模型 Image 2，订阅 Ultra Plan，可不限量使用。

来自主题: AI资讯

8385 点击 2026-04-27 10:00

打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

近期，利用视频生成模型为机器人构建 “世界模型”，已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令，这类模型能够先 “想象” 出未来的视觉轨迹，再由逆动力学模型（IDM）将生成画面解码为机器人动作，从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力，这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报

8952 点击 2026-03-28 09:50

速递｜字节最强视频模型 Seedance 2.0 暂停全球发布，好莱坞巨头们集体急了

据 The Informaton 报道，字节跳动已经暂缓了视频生成模型 Seedance 2.0 的全球发布计划。背后的导火索，是一连串来自好莱坞头部片厂和流媒体平台的版权争议。

来自主题: AI资讯

9789 点击 2026-03-15 16:07

ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型，打破闭源技术壁垒

基于对注意力特性的观察，CineTrans 提出块对角掩码的通用机制，使视频生成模型能高效地自动化转场。为了进一步提升转场模型的效果和准确性，作者设计了详细的多镜头视频生产管线，并收集了一个高质量、多镜头数据集 Cine250K，大幅提升多镜头转场视频生成的效果。作为首个时间级可控的自动化转场模型，CineTrans 为这一领域的众多后续方法提供了关键技术。

来自主题: AI技术研报

9378 点击 2026-02-28 15:05