视频生成大模型赛道,只是看上去拥挤

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
视频生成大模型赛道,只是看上去拥挤
5324点击    2024-12-23 09:53

AI一天,人间一年


视频生成大模型赛道,只是看上去拥挤


2024年最后一个月,国产大模型落地应用突然加速。尤其视频生成模型,就像密集射出子弹后的枪管,热得发烫。


12月19日,快手可灵更新了1.6模型,相比两周前高调扩散AI导演共创计划,这个动作显得安静很多。但是快手选择升级模型的这个时间点,似乎有些深意。


因为一天前的12月18日,字节火山原动力大会,第一次对外发布豆包视频生成大模型。同时张楠从抖音来到剪映成为掌门人之后,首次对外亮相。她简短介绍了今年5月份就推出的即梦,一款跟可灵类似的视频生成工具。


会上,张楠给出即梦的明确含义:想象力相机,以此对应抖音的现实相机。但是她没有讲太多产品细节,只是播放了两个样片。她说产品和技术都还在早期阶段。


这可能是避免外界将即梦和一周前公布的Sora Turbo做直接对比。


OpenAI年底为期12天的直播,重头戏是在12月10日,长达10个月的铺垫之后,Sora终于揭开面纱。


其中最大亮点是「故事板」(view story)功能,提示词可以直接转化剧本。此外新版Sora视频生成速度更快,编辑功能更实用。为此,用户每月要付出200美元的成本。所以虽然产品发布当天,服务器被海量流量冲击崩溃,但吐槽声音不断。


不管怎样,在大模型先锋OpenAI之后发布产品总是压力不小,除非有更惊喜强大的产品亮点,否则容易黯然失色。


因此,腾讯混元在12月初就抢先一步推出视频生成大模型,且将应用名字称作「元宝」。不过,相比Sora、可灵、即梦等既能文生视频也能图生视频的工具,腾讯混元目前只能文生视频。


问题在于,目前大模型对语义理解水平能力有限,所有文生视频的应用效果远远达不到令人满意的地步,也很难吸引AGIC创作者积极使用。


腾讯自然是明白的。所以产品发布当天,开源是腾讯积极释放的信号。


虽然国产视频生成应用也近10多款,从过去20天的情况来看,国产视频生成模型还是掌握在大公司手里,这不仅跟大模型水平、算力有关,视频数据积累更是决定性因素。而且大模型早期弥漫的一种FOMO情绪(Fear of Missing Out),此刻依然有迹可循。


只是正如张楠所说,产品和技术还处在早期。如果你了解到现在的AI视频是怎么做出来的,就不会被渲染的画面迷惑,只是发出一声惊叹。


此刻仅仅是发令枪响起,不要太早下结论。


图生视频是主流? 


在我们接收到的信息中,大模型生成视频似乎易如反掌,一段文字还你一段视频,且效果比肩影视大片。人人都是大导演,近在迟尺。


事实是,AI视频的确降低了生产门槛,只是那些制作精良的广告宣传片、短剧类AI视频,还是少数人掌握的技能。


有必要先讲下一个2分钟的AI短片是怎么做出来的。


首先,跟传统创作类似,创作者要先拿出脚本,只不过是基于AI能力可以实现的内容。这个步骤是可以借助AI工具,ChatGPT、Kimi和智谱清言是被提及最多的。


其次,根据视频脚本拆解细化的分镜内容,创作者用AI文生图工具将分镜先以静态图的方式展现。


如果是有专业或者商业要求,比如广告,宣传片,短剧等,希望达到传统拍摄的专业与合理性,在将静态分镜图转成视频之前,需要创作者将生成的静态图进行PS后期及图片超分辨率处理来提高图片的原始质量,以次保证图生视频的质量基础。


之后,将这些图片给到AI视频工具进行动态分镜生成。Sora的720p单次可以生成最长20秒的视频,国产大模型一次都只能生成5-10秒的视频。


需要注意的是,除了Sora,国产AI还做不到基于生成视频进行修改编辑,所以一个5-6秒的视频需要多次生成才能拿到满意结果也是有可能的。


现在我们看到的2-3分钟AI视频,绝大部分都是图生视频,而且原料是经过专业处理的图片,需要多次续写并配合后期剪辑而成。


虽然目前国产视频生成模型中,只有腾讯混元是免费的,没有收费项目,但文生视频依然面临激励创作者使用的障碍(今年5月份腾讯生成式AI产业峰会上,腾讯公布的多模态能力中,其中提到混元支持图文等形态生成视频能力,只是还没有图生视频的落地应用):


首先是大模型语义理解能力局限,视频最终呈现的是不是文字描述的东西,以及是不是符合创作者脑海设想的画面?


其次在于一致性。比如,你希望以「一个穿着淡黄色长裙的女生」为主角,生成一个长1-2分钟的连续视频。


按照现在大模型能力,你可能要不断续写几十次甚至上百次才有可能最终实现。但是可能你每次文字输入生成的视频中,这个女生的五官和穿的长裙款式都不一样,五官可能存在年龄与样貌偏差,服装颜色可能是浅黄、深黄或是橙黄,这就是一致性问题。


但是图生视频可以提前确定统一色调,在图片处理方面配合Comfy UI(一款基于节点工作流稳定扩散算法的图形界面)的换脸、换服装等功能做到人物一致性。


文生视频也不是被束之高阁,如果你要的就是短短五六秒的东西,或者一键让静图活动起来,使用门槛要更低一些。在文生视频领域,尚在内测阶段的腾讯混元(一天只能测试6次)的确是超出现在行业平均水平的。


腾讯混元文生视频,提示词为:烟花绽放/开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复平静,留下点点星光,寓意瞬间的美好。


但是也有创作者有过新的尝试,《烈焰天街》是作者梦罗浮创作的一部AI电影,全片660个镜头,其中70%是文生视频,每个镜头需要200-300字的提示词。他在分享创作心得时解释,「之所以用文生视频做主体创作,因为它表情和肢体动作比图生视频真实。」


他提到,即梦文生视频效果很像图生视频,「放眼望去,人人都是主演,多人内容场景模型不崩坏」。


即梦文生视频,提示词同样为:烟花绽放/开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复平静,留下点点星光,寓意瞬间的美好。


不管怎样,现在看到绝美或是接近物理现实的AI视频,是少数懂得设计、审美,熟练操作各种工具的专业人士做出来的。你也可以理解为,这些人是AI视频的种子用户。一年前,他们中大部分是AI绘画工具的熟练掌握者,活跃在小红书平台。


因此,相比豆包、Kimi等AI对话类产品上来就海量投放转化的动作,可灵、即梦前期更多是在尽可能网罗种子用户的参与,激励他们创作更多作品,各个社群这些创作者都是被争取的对象。其中一些敏锐的创作者,靠售卖AIGC培训教程,抓住了一波变现红利。


成为各个应用的超创,创作者可以有机会获得平台推送的商单,免费积分,包括于电视台合作的支持。但可能平台也会要求超创每月输出一定的视频创作,甚至免费配合产品宣讲教程。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍


从大厂的一些动作也透露出应用在引导的用户群体和使用场景。


可灵从影视专业人员群体攻入,之前他们也提出AI+短剧的计划,意图就是在影视、广告、游戏等领域嫁接AI。自上而下渗透的意图显而易见。


腾讯混元在介绍中就明确提出,可在工业级商业场景例如广告宣传、动画制作等场景。腾讯广告妙思平台就已经接入文生图模式,降低广告主的创作门槛。


看不见的决定因素 


尽管即梦和可灵具备图生视频的能力,已经占据一定的用户心智,但对于他们而言,依然前路漫漫。


除了我们所能感知到的产品特征和差异,国产AI视频应用的底层模型架构,有很大的相似性。


腾讯混元和快手可灵都是采用了跟Sora类似的DiT(Diffusion Transformer)模型架构。包括MiniMax的海螺AI也是如此选择。‍‍‍


一种观点认为,与OpenAI其他产品不同,在算力充足的前提下,DiT架构路径复刻难度相对较低。这也是国产视频生成大模型在短短几个月,布局速度和落地结果超出预期的原因。


但是接下来在一些关键性问题解决上,就看各家公司的底层优化能力和数据训练结果。‍‍‍‍


AGIC创作者温维斯Wenvis告诉新莓daybreak,他对AI视频应用实现的结果有两个期望:一是快速展现出自己脑海的想法,且跟预期是比较相符的;二是成为自己的灵感激发器,不一定是成品,但想法会被启发或提升。


在可灵发起的AI导演共创计划中,温维斯是导演王子川的AI合作者,他们共同创作了《雏菊》,前期一个基本想法就是,尽量避开AI不擅长的地方。


就目前而言,视频生成模型共同努力方向有几个:一致性,视觉真实度,动态幅度,提示词的语义理解能力等。


比如尽管很多产品宣称一致性表现不错,但几乎所有公司都还在默默努力。只有创业公司生数科技曾在今年9月高调发布所谓「全球首个支持多主体一致性的多模态大模型」,公司旗下产品Vidu现在已经开放使用,测评反馈在2D及多主体一致上表现不错,缺点是画面太糊,即使是会员可以享受高分辨率的用户也依然存在这个问题。


再比如,不论国内国外,AI视频软件的动态幅度都有待提升。最基本的人物开口说话,做一些特定的肢体动作,比如武术,运动体操这类大幅动作,目前所有工具表现都不尽如人意。


导演俞白眉接触AI最想探索的就是与动作连接的部分,他知道AI在规定镜头的运动方面,不是强项,也不擅长真人动作。但他还是积极参与了可灵的导演计划,希望尝试创作出一些之前没有见过的动作片段。


谈及整个创作过程,他说一言难尽,结果也差强人意,「这些作品都是涂鸦」。但他也提到,中间有趣味存在,学到了很多东西。


俞白眉的体感可能会得到不少共鸣。所以,创作者会根据不同题材,不同需求,使用不同的AI视频工具。也许个人创作偏好会导致他使用某个工具多一些,但现在远不到哪款产品形成绝对优势的地步。


国产AI生成视频应用,快手旗下的可灵是唯一公布过数据的。


快手第三季度财报发布时,可灵9月份月活超150万。到了12月10日,累计用户数达到600万,生成视频数量为6500万,图片超1.75亿张。快手还公布过商业化成绩,单月流水超过千万元,据说为此内部还切蛋糕,小小庆祝了一下。


可灵是国产大模型生成视频动作相对较快的一个,有种抢跑加速的焦虑感。


今年6月产品上线,当月就推出图生视频,以及续写视频,从一开始的最长2分钟延伸至3分钟。而且很早就明确跟短剧、影视相结合,可灵生成最早流传到海外的视频还被马斯克看到并点评。


即梦推出时间比可灵要更早,对外释放的信息和动作没有可灵频繁。但是因为字节AI部署能力和广泛用户基础,即梦在创作者群体的呼声也很高。


叶锦添有两句话说得非常好:如果用3D传统的方式,每次想试一样东西都要花同样的时间,但AI是不用的。这给了我不同的速度感,我就开始去领会,AI会影响我怎么看这个世界。他还说,AI有时候走得比我们快,所以有可能带来另外一种经验。


AI一天,人间一年。


文章来自微信公众号 “新莓daybreak”,作者“翟文婷”


视频生成大模型赛道,只是看上去拥挤

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales