通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

9012点击 2024-12-05 14:56

视频生成模型评测权威榜单VBench，突遭“屠榜”。

这个突然杀出来的模型，就是中国电信人工智能研究院（TeleAI）刚刚发布的视频大模型（VBench上的代号为TeleAI-VAST）。

而且16项子指标有9项都是第一，大幅领先第二名。

其中更是有5项得分超过99%，并在物体分类和人体动作两项拿了满分100%。

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

来看一段样片：

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

这段短片中，四位女主角为寻找宝石，分别踏上了各自的冒险之旅。

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

具体细节不展开太多，但关键之处在于，每个人物在各自的分镜中，形象都和开头的合影保持了一致。

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

要知道对于视频生成来说，保持单个人物的前后一致就已经不是一件容易的事，TeleAI视频生成大模型却一下处理了四个。

人物动作精准控制，还有音画同步

除了开头三分钟的宣传片，TeleAI展示了另外几段作品。

第一段视频中，女主角先后出现在公交车、马路、酒吧吧台和座位四个不同的场景。

在这四个场景中，人物的外貌、发型、衣着全都保持了一致，画面整体的色调风格也很统一。

这说明，TeleAI视频生成大模型已经实现了不同的场景变化下主体的时空一致性。

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

接下来的这段画面里，两只猴王展开了一场近距离对战，期间的人物动作、镜头跟随，都已经呈现出了电影级的水准。

如果细节再继续打磨优化，拿来拍电影指日可待。

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

人物特征、时空一致性和动作精准性都有了，还能再做些什么呢？

目前的视频生成模型大多生成的都是默片，这次TeleAI把声音也加进来了。

先看视频：

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

从视频中可以看到，TeleAI视频生成大模型生成的声音，不是单纯地来上一段音乐那么简单。

仔细听会发现，舰船的鸣笛声、飞机起飞的轰鸣声、潜水艇的水声，以及最后火箭冲出水面的声音，都与画面中看到的内容做到了同步。

也就是说，TeleAI视频生成大模型作品中体现的一致性，已经跨越模态了。

独创两阶段生成架构

不仅效果和成绩优秀，TeleAI视频生成大模型的技术架构也十分独特。

它没有采用传统的路径，而是全自研了一个“二阶段视频生成技术”——VAST（Video As Storyboard from Text）。

TeleAI团队没有选择一步到位，而是将视频的生成分解成了两个过程。

在第一阶段，采用多模态大型模型根据文本输入生成中间素材，包括姿势、分割图和深度信息。

TeleAI团队把这些中间表示称作“故事板”，是模型能够体现场景语义和结构本质的关键。

第二阶段，才是真正的视频生成。

利用基于DiT架构的扩散模型，TeleAI以这些表示为条件，结合目标对象的文本描述和外观信息，生成最终的视频。

这种分段式的方式，使得生成视频时能够精确控制主体的位置、运动和视觉外观。

而且，TeleAI视频生成大模型不仅能在模型上分“阶段”，还可以把视频按场景分成“片段”。

当创作者想要生成一段长视频时，视频生成工具可以先设计具体的分镜头，开头3分钟的视频就是用这种方法创作出来的。

针对每一个分镜，生成具有一致性的生成中间素材，这些中间素材不仅作用于模型内部，对创作者也是可见的，甚至还能进行调整修改。

因为对片段进行了划分，所以，只要在每个片段中都能保持人物一致性，可以生成的视频长度将是无限长。

中国电信介绍，本次发布的视频生成大模型将于明年开启公测，可以期待一波新鲜的AI大片了。

各种模态全都有，还要做智能体

此次亮相的视频生成大模型，是TeleAI整个大模型布局中的一个环节。

此前，TeleAI已经自主了研发覆盖语义、语音、视觉、多模态的“星辰”大模型能力体系。

星辰大模型在央企中唯一开源，还完成首个全国产化万卡万参大模型训练，并打造业界首个支持40种方言自由混说的语音识别大模型。

基础模型之外，TeleAI还面向工业、教育等领域推出50多个场景大模型，并构建了“星海”数据智能中台，形成了9万亿Tokens高质量数据集。

在使用方式上也另辟蹊径，甚至推出了发短信和大模型对话的功能。

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

除了模态、场景、数据和使用方式，TeleAI也全新推出了大模型智能体平台，与视频生成大模型一同登上TeleAI开发者大会。

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

可以期待一下TeleAI下一波的AI产品了。

文章来自于“量子位”，作者“克雷西”。

通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致

关键词: AI , TeleAI , AI视频 , 中国电信人工智能研究院

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md