快手“可灵”爆火,大厂如何做好国产Sora?
哪怕大厂有资金、技术的绝对优势,在AI时代,无论公司规模大小,都是创业者,很难轻易全力投入。
距离OpenAI发布Sora已过去近半年,国内的挑战者轮番上阵,只增不减。
就在刚结束的2024年世界人工智能大会(WAIC)上,多个“中国版Sora”亮相。
快手发布了可灵大模型的更新版本,主打时长最高达3分钟;商汤推出了最新的人物 AI 视频模型 Vimi,主打技术的“可控性”;阿里达摩院发布AI视频创作平台“寻光”,主打剧本创作辅助。
虽然AI生成式视频久违地热闹了一番,但整体掀起的水花并不大。尽管对谁才是中国版Sora的争夺从未停止,得到业内普遍认可的产品仍未出现,但快手成了最新的变数。
无论是技术路线,还是视频时长、生成效果,快手的可灵大模型似乎最像Sora。
“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的。”在测试快手可灵后,猎豹创始人傅盛不吝赞美。
值得注意的是,傅盛提到了“使用范畴”。眼下,国内AI视频的玩家有限,Sora又始终保持神秘,某种程度上“衬托”出了快手可灵的相对优势。
在Sora发布的几天前,张楠宣布辞任抖音集团CEO,亲自带队转战剪映,寻求在AI视频的突破。
同为短视频平台巨头,快手长期被抖音压过风光,在大模型时代,外界也惯性般对抖音寄予厚望,将其视为狙击Sora的种子选手。
就在人们翘首以待,张楠会交出怎样的成绩时,快手CEO程一笑却“截了胡”。
被Sora吊足了胃口的国内外网友们,被快手可灵的demo效果惊艳到,在线求试用名额。至少在国内的AI生成视频领域,这是少见的情况。
据快手透露,可灵大模型上线一个月以来,累计申请用户数50万+,开通用户数30万+,生成视频数700万。
被外界赋予“中国版Sora”的产品不少,但快手可灵最担得起该称号的吗?
先从技术路线说起,快手可灵的架构采用了类Sora的DiT结构,即以Diffusion和Transformer结合的方式,替代了传统扩散模型中基于卷积网络的U-Net。
Transformer具有较好的可拓展性,其结构会随着模型的增大,效果会持续变好。而U-Net会在模型增大到一定范围时,所受的增益效果放缓甚至停止。
Sora能在AI生成式视频实现质的飞跃,正是技术底层架构的巧妙选择。阿里巴巴达摩院的分析认为,Sora 的智能涌现,体现在其三位一致性、长距离连贯性和物体持久性、与世界互动的能力、对数字世界的模拟。
可灵也似乎能生成如Sora效果般的视频,真实还原物理世界。例如,一个人吃汉堡时,嘴角容易沾上酱料,汉堡留下咬痕。在可灵官网展示的demo中,小男孩吃汉堡的动作、神态均比较自然。
国外网友@Garry Tan 看到这条视频后,直呼“Oh man this is me.(天哪,这就是我!)”
(prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡,图源官网。)
但在细节的处理方面,快手可灵仍展现出与Sora的明显差距。
傅盛曾用快手可灵模仿Sora气球人的视频,在一些镜头中,不难发现气球里还有人头。且就气球本身来说,Sora的气球透明度非常自然,和现实中的气球一模一样。而可灵的气球被撑得很大,在阳光下几乎看不到透明度的变化。
(图源@傅盛讲AI)
此外,Sora能够接受提示词、图像乃至视频作为输入,大模型将根据用户的输入来生成视频。多样的输入选择背后,是OpenAI多模态大模型的支撑。
由于Sora有OpenAI文生图模型DALLE3的加持,可将许多没有文本标注的视频自动进行标注,用于视频生成的训练。
同时,ChatGPT也可以把用户的输入扩写成细节更详细的描述,有效帮助Sora提取和理解用户的需求,使生成的视频更符合用户预期。
举个例子,输入“女性在商店购物”,ChatGPT可能会扩展联想到女性的衣服、商店的装饰、购物的类型等信息。
在这方面,快手可灵就不容易直接“复制”Sora了。
快手旗下的通用语言大模型“快意”,功能远不如GPT,在国内大模型梯队中,其存在感也较弱。快意对可灵语义理解上的助力,很可能是有限的。
目前,快手可灵支持文本输入、图片输入,另支持多种控制信息输入,如相机运镜、帧率、边缘/关键点/深度等,但没有提供视频输入的功能。
以Sora横空出世为分界线,AI生成视频领域被划成分“10秒以内的时代”,以及“60秒及以上的时代”。
此前,国内没有一个产品,可以把视频做到10秒,10秒也成了衡量产品的“生死线”。
火爆全网的AI 视频生成应用Pika,在去年11月末正式发布,比Sora早几个月,仅能生成长度为3秒的24帧视频。
如果存在时长超过10秒的产品,基本是拼接起来的视频。
代表产品有百度AI文生视频的功能,自动根据文字内容,帮助寻找合适的视频素材,再输出视频,实质是对现有素材的拼接,没有涉及生成新的视频内容。
也有让单帧的图片“动”起来的文生视频技术,代表产品有阿里的EMO模型,输入声音和图片后,比如输入一首歌与人的照片,就能生成人在唱歌的短视频。
上述产品都只是“从有到有”,而Sora带来了文生视频技术真正实现了“从无到有”,直接跃升至“构建现实”的新高度。
Sora发布后,“生死线”延长至60秒。被震撼和刺激到的国内厂商,开启了追赶之路。
Pika 创始人郭文景表示,“(Sora)是一个振奋人心的消息,我们准备直接冲,将直接对标Sora。”经过几次更新,目前Pika把画面延长至4秒,只够做成表情包。
第一个跨越10秒“生死线”的企业,是背靠“清华系”的生数科技,旗下Vidu大模型4月首次亮相时,可以生成16秒视频,赢得了“中国版Sora”的称号。不到2个月,Vidu又宣布实现32秒视频的升级。
第一个跨越10秒“生死线”的大厂,是腾讯旗下的混元大模型,也是能生成16秒视频。
而抖音集团旗下的Dreamina(即梦)有所掉队,目前只支持生成3秒视频。
1秒的延长,往往意味着技术路线、训练数据等环节的大量研究与优化。单是训练素材,视频比文体、图像都更紧缺,收集、清洗、标记的难度更大。
套用Sam Altman 解释为何 GPT 会比其他的大模型更好的理由,是因为 OpenAI 堆了“一百万个小技巧”。
腾讯混元大模型能跨过10秒门槛,主要是全面升级了基础架构,由传统的U-Net改为DiT架构,参数量提升十几倍等。
快手可灵起初是支持2分钟视频,通过增加频续写功能,成功延长至3分钟。但快手可灵开放的内测,只支持生成几秒的视频。
视频长度与连贯性高度相关,国内视频大模型长期在10秒内止步,便是无法做到在确保时长的基础上,兼具人物和场景、前后语境逻辑等方面的连贯。为了画面流畅度,厂商宁愿放弃时长。
比如,当一个人遛狗,狗怎么走路?遇见路人时会有什么反应?人和狗移动时周边环境如何同步变化?我们在日常生活中习惯的场景,放在虚拟世界,却是极其复杂的问题。
“可灵肯定是一个非常复杂的,重资源投入,多兵种协作的复杂项目,肯定不是一个单一的天才的想法随便搞出来的东西。”快手视觉生成与互动中心负责人万鹏飞表示。
ChatGPT发布后,国内大厂争先恐后上线通用语言大模型。不到两年,该领域就已历经“百模大战”、“开源与闭源之争”、“价格战”,百度、阿里、腾讯、字节、华为集体亲自下场交锋,火药味十足。
而AI生成视频要冷清得多,当OpenAI抛出Sora这一“王炸”后,讨论热度依然高居不下,但在产品数量上,国内没有重现语言大模型的盛况。
只有字节的海外版剪映跟进推出了文生视频产品的测试版,且反响不佳。有网友反馈,生成一个视频得等约1800分钟。
资本也把主要的热情分给通用语言大模型,同样是初创公司,Kimi的月之暗面估值超200亿人民币,生数科技估值刚超过1亿美元。
即便是可灵,对快手拉高市值也没有什么影响。6月以来,快手的股价持续下跌,7月12日才稍有起色。
然而,这并不代表大厂对视频缺乏兴趣,只是换了种玩法。
“App工厂”字节继续做擅长的事,用应用的方式打开AI生成视频,推出了即梦App,约两分钟就能生成了3 秒的视频,进步显著。要延长3 秒,则需购买会员。
腾讯在上线自研混元大模型的同时,也发布了文生图大模型,并且全面开源,可以免费商用。
百度倾向于寻找优质的投资标的,早看中了生数科技,华为、阿里也参与押注。
玩法变动背后,是国内厂商考验性价比的结果。光卷文本大模型,大厂都有些分身乏力。
由于Sora完全闭源,OpenAI对技术细节守口如瓶,让竞争对手难以“抄作业”。
算力荒为另一大痛点,哪怕大厂有资金、技术的绝对优势,在AI时代,无论公司规模大小,都是创业者,很难轻易全力投入。
中信证券曾简单估算,一个60帧的视频(约6—8秒)需要约6万个Patches,以去噪步数为20计算,相当于要生成120万个Tokens。考虑到扩散模型在实际使用时需要多次生成的特点,实际计算量会远超120万个Tokens。
业界也流传,Sora 的参数规模在 100亿到 300亿之间,所需的算力或与千亿级的大语言模型差不多。
这意味着,同等参数的视频模型,所需的算力比大语言模型多几十倍。
何况,不像语言大模型已指出较明确的B端商业化路径,视频大模型还在摸索阶段,甚至连全面公测都有较远的距离。快手可灵也暂无商业化计划,不对外提供API。
OpenAI CTO 曾指出, Sora 拟2024 年年内对外推出。
OpenAI向来不打无准备的战,届时Sora的开放,或又是进一步盘活国内AI生成视频赛道的鲶鱼。
说明:数据源于公开披露,不构成任何投资建议,投资有风险,入市需谨慎。
文章来源于“懂财帝”,作者“嘉逸”