一如五年前的视频编辑工具争夺战,现在AI视频工具之战也已拉开帷幕。
今年年初,OpenAI突然扔出了一颗深水炸弹——文生视频大模型Sora,它不仅能生成一分钟的连贯、高清视频,且具有极强的仿真能力,也展现出了对物理世界的初步理解。一时间,关于国内AI行业又一次被甩开的焦虑也开始在网络上蔓延。
可谁曾想到,仅仅半年时间过去,在Sora几乎已经“查无此人”时,国内的文生视频模型已经开始了捉对厮杀。就在快手的可灵AI宣布全面开放内测之后,日前字节跳动旗下剪映团队研发的一站式AI创作平台“即梦AI”宣布上架,并且与前者一样,即梦AI也同步上线了付费会员体系。
为什么当OpenAI的Sora还停留在PPT阶段,反而是“中国版Sora”率先开始商业化运作呢?要说快手、字节跳动的AI研发能力碾压OpenAI显然并不现实,毕竟字节跳动的豆包、快手的快意还比不了OpenAI的GPT-4o。所以真正的原因,或许是Sora只是OpenAI当时狙击谷歌Gemini 1.5的一个工具,而对于快手和抖音这两大短视频平台而言,文生视频模型即梦AI、可灵AI的意义非凡。
为什么快手、字节跳动的文生视频大模型会如此迅速的落地?Sora给业界带来的启示无疑是一切的起点。在Sora之前,业界最好的文生视频产品Runway、Pika,都只能做到生成一段不到十秒的视频,与其说它们生成的是视频,还不如说是一段GIF。直到Sora实现了生成连贯的一分钟视频,且展现出在多角度多镜头切换中保持一致性,以及遵循现实世界物理规律的能力。
其实Sora采用的Diffusion Transformer架构是这一切的根源,OpenAI创造性地将训练大模型的Transformer架构融入到了Diffusion扩散模型中,为图像视频等多模态数据找到了适合Transformer架构的训练方式。在解决了从零到一的问题之后,如何将文生视频模型商业化就变成了工程问题,也就有了即梦AI和可灵AI的青出于蓝而胜于蓝。
对于OpenAI而言,他们的使命是实现AGI,Sora至是秀肌肉的一个工具,而快手和字节跳动做文生视频则是为核心业务短视频服务。这也是Sora已经没有了下文,而可灵AI、即梦AI后来者居上的重要原因之一。毕竟对于短视频平台而言,文生视频工具意义重大,事实上可灵AI和即梦AI的正面对决一如五年前的视频编辑工具之争。
此前在2019年夏季,抖音的剪映和快手的快影两款视频编辑应用同一时间迎来了爆发式增长,再算上一年后B站上线的必剪,三大以UGC内容起家的视频平台,不约而同的搞起了视频编辑产品。而视频编辑工具之争背后,则是从2019年开始随着流量红利的消失,视频网站开始从UGC过渡到PUGC时代,这一时期抖音、快手、B站也纷纷搞起了对自己平台上创作者的培训。
问题在于,给创作者办培训班固然有效,但平台的人手面对于海量的创作者群体无疑是捉襟见肘。互联网厂商宝贵的人工资源显然不是这样用的,通过技术手段来解决问题才是他们的法宝。因此抖音、快手开始思考,如何通过技术手段提升用户制作短视频的效率和质量,从而让更多的优质内容涌现。
现实也确实如抖音、快手,以及B站所想,剪映等视频编辑工具通过提供模板、滤镜、主题等模块化工具,成功拉低了创作视频内容的难度,让更多人有了输出内容的能力。参与创作的人多了,出现优质内容的概率自然也就更高。
只可惜,即便剪映、快影已经做到了比Adobe Premiere Pro、Vegas Pro等专业级视频编辑软件更傻瓜化,每一个功能都提供了视频讲解,但依然还存在一定的上手难度、距离零门槛尚有一段距离。随着微信视频号进入短视频这个赛道,分蛋糕的厂商又多了一家,以至于抖音和快手吸引用户停留的压力变得更大了。
但AI大模型的出现,就给了抖音和快手实现“人人皆是创作者”的机会。毕竟文生视频大模型的卖点,就是可以通过文字生成一段视频,用户不需要懂得任何视频剪辑的知识和技巧,直接就能把文字脚本变成视频。那么这一特质最适合什么样的创作者呢?当然是还遗留在微信公众号、知乎,以及各大新媒体平台的图文创作者了。
没错,图片创作者向视频创作者转型是一个从几年前就出现的现象,可直到目前为止,微信公众号、知乎,乃至小红书上依然有大量的图文创作者在坚守阵地。短视频平台为了留住这批图文创作者不惜开辟图文专区,但短视频和图文终究是不同的。当年的剪映横空出世,就已经让有志于视频创作的用户加入到短视频创作生态中,所以这一次AI工具面向的并不是他们。
有了可灵AI、即梦AI,图文创作者就可以直接使用文字来生成想要的视频内容,或者干脆为文字生成一段符合情境的视频。对于没有接触过视频制作的内容创作者来说,可灵AI、即梦AI的效果远比以往的文生视频工具更加强大。比如,知乎方面就曾在2020年搞了一个图文可快速生成视频的工具,但由于效果差强人意,用户根本不买账。
以往的文生视频工具都是借助自然语言识别(NLP)技术来进行断句和配音,再利用语义图片识别(OCR)技术来通过标签进行智能配图,以实现将平面的图文转化为更为立体的视频。但这种视频的效果和原生视频可谓是天差地别,只能解决有无问题,却做不到商业化。
经过过去数月的测试,可灵AI已经证明了它们生成的视频和人类借助编辑工具创作的视频,没有拉开质的差距。既然,可灵AI、即梦AI已经具备商业化的水平,同时抖音、快手又需要更多的内容创作者来丰富内容生态,所以一如五年前打响的视频编辑工具争夺战,现在的AI文生视频工具之战也拉开了帷幕。
文章来源微信公众号“三易生活”,作者来自“三易菌”