通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致
5973点击    2024-12-05 14:56

视频生成模型评测权威榜单VBench,突遭“屠榜”。


这个突然杀出来的模型,就是中国电信人工智能研究院(TeleAI)刚刚发布的视频大模型(VBench上的代号为TeleAI-VAST)


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


而且16项子指标有9项都是第一,大幅领先第二名。


其中更是有5项得分超过99%,并在物体分类和人体动作两项拿了满分100%。


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


来看一段样片:


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


这段短片中,四位女主角为寻找宝石,分别踏上了各自的冒险之旅。


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


具体细节不展开太多,但关键之处在于,每个人物在各自的分镜中,形象都和开头的合影保持了一致


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


要知道对于视频生成来说,保持单个人物的前后一致就已经不是一件容易的事,TeleAI视频生成大模型却一下处理了四个。


人物动作精准控制,还有音画同步


除了开头三分钟的宣传片,TeleAI展示了另外几段作品。


第一段视频中,女主角先后出现在公交车、马路、酒吧吧台和座位四个不同的场景。


在这四个场景中,人物的外貌、发型、衣着全都保持了一致,画面整体的色调风格也很统一。


这说明,TeleAI视频生成大模型已经实现了不同的场景变化下主体的时空一致性


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


接下来的这段画面里,两只猴王展开了一场近距离对战,期间的人物动作、镜头跟随,都已经呈现出了电影级的水准。


如果细节再继续打磨优化,拿来拍电影指日可待。


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


人物特征、时空一致性和动作精准性都有了,还能再做些什么呢?


目前的视频生成模型大多生成的都是默片,这次TeleAI把声音也加进来了。


先看视频:


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


从视频中可以看到,TeleAI视频生成大模型生成的声音,不是单纯地来上一段音乐那么简单。


仔细听会发现,舰船的鸣笛声、飞机起飞的轰鸣声、潜水艇的水声,以及最后火箭冲出水面的声音,都与画面中看到的内容做到了同步


也就是说,TeleAI视频生成大模型作品中体现的一致性,已经跨越模态了。


独创两阶段生成架构


不仅效果和成绩优秀,TeleAI视频生成大模型的技术架构也十分独特。


它没有采用传统的路径,而是全自研了一个“二阶段视频生成技术”——VAST(Video As Storyboard from Text)


TeleAI团队没有选择一步到位,而是将视频的生成分解成了两个过程


在第一阶段,采用多模态大型模型根据文本输入生成中间素材,包括姿势、分割图和深度信息。


TeleAI团队把这些中间表示称作“故事板”,是模型能够体现场景语义和结构本质的关键。


第二阶段,才是真正的视频生成。


利用基于DiT架构的扩散模型,TeleAI以这些表示为条件,结合目标对象的文本描述和外观信息,生成最终的视频。


这种分段式的方式,使得生成视频时能够精确控制主体的位置、运动和视觉外观。


而且,TeleAI视频生成大模型不仅能在模型上分“阶段”,还可以把视频按场景分成“片段”。


当创作者想要生成一段长视频时,视频生成工具可以先设计具体的分镜头,开头3分钟的视频就是用这种方法创作出来的。


针对每一个分镜,生成具有一致性的生成中间素材,这些中间素材不仅作用于模型内部,对创作者也是可见的,甚至还能进行调整修改。


因为对片段进行了划分,所以,只要在每个片段中都能保持人物一致性,可以生成的视频长度将是无限长


中国电信介绍,本次发布的视频生成大模型将于明年开启公测,可以期待一波新鲜的AI大片了。


各种模态全都有,还要做智能体


此次亮相的视频生成大模型,是TeleAI整个大模型布局中的一个环节。


此前,TeleAI已经自主了研发覆盖语义、语音、视觉、多模态的“星辰”大模型能力体系。


星辰大模型在央企中唯一开源,还完成首个全国产化万卡万参大模型训练,并打造业界首个支持40种方言自由混说的语音识别大模型。


基础模型之外,TeleAI还面向工业、教育等领域推出50多个场景大模型,并构建了“星海”数据智能中台,形成了9万亿Tokens高质量数据集。


在使用方式上也另辟蹊径,甚至推出了发短信和大模型对话的功能。


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


除了模态、场景、数据和使用方式,TeleAI也全新推出了大模型智能体平台,与视频生成大模型一同登上TeleAI开发者大会。


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致


可以期待一下TeleAI下一波的AI产品了。


文章来自于“量子位”,作者“克雷西”。


通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md