国产Sora赛道无战事

8521点击 2024-07-15 13:17

快手“可灵”爆火，大厂如何做好国产Sora？

哪怕大厂有资金、技术的绝对优势，在AI时代，无论公司规模大小，都是创业者，很难轻易全力投入。

距离OpenAI发布Sora已过去近半年，国内的挑战者轮番上阵，只增不减。

就在刚结束的2024年世界人工智能大会（WAIC）上，多个“中国版Sora”亮相。

快手发布了可灵大模型的更新版本，主打时长最高达3分钟；商汤推出了最新的人物 AI 视频模型 Vimi，主打技术的“可控性”；阿里达摩院发布AI视频创作平台“寻光”，主打剧本创作辅助。

虽然AI生成式视频久违地热闹了一番，但整体掀起的水花并不大。尽管对谁才是中国版Sora的争夺从未停止，得到业内普遍认可的产品仍未出现，但快手成了最新的变数。

无论是技术路线，还是视频时长、生成效果，快手的可灵大模型似乎最像Sora。

“甚至我觉得也吊打了Sora，我认为这个产品今天，在我能使用的范畴内就是全世界第一的。”在测试快手可灵后，猎豹创始人傅盛不吝赞美。

值得注意的是，傅盛提到了“使用范畴”。眼下，国内AI视频的玩家有限，Sora又始终保持神秘，某种程度上“衬托”出了快手可灵的相对优势。

「国产 Sora」又来了？

在Sora发布的几天前，张楠宣布辞任抖音集团CEO，亲自带队转战剪映，寻求在AI视频的突破。

同为短视频平台巨头，快手长期被抖音压过风光，在大模型时代，外界也惯性般对抖音寄予厚望，将其视为狙击Sora的种子选手。

就在人们翘首以待，张楠会交出怎样的成绩时，快手CEO程一笑却“截了胡”。

被Sora吊足了胃口的国内外网友们，被快手可灵的demo效果惊艳到，在线求试用名额。至少在国内的AI生成视频领域，这是少见的情况。

据快手透露，可灵大模型上线一个月以来，累计申请用户数50万+，开通用户数30万+，生成视频数700万。

被外界赋予“中国版Sora”的产品不少，但快手可灵最担得起该称号的吗？

先从技术路线说起，快手可灵的架构采用了类Sora的DiT结构，即以Diffusion和Transformer结合的方式，替代了传统扩散模型中基于卷积网络的U-Net。

国产Sora赛道无战事

Transformer具有较好的可拓展性，其结构会随着模型的增大，效果会持续变好。而U-Net会在模型增大到一定范围时，所受的增益效果放缓甚至停止。

Sora能在AI生成式视频实现质的飞跃，正是技术底层架构的巧妙选择。阿里巴巴达摩院的分析认为，Sora 的智能涌现，体现在其三位一致性、长距离连贯性和物体持久性、与世界互动的能力、对数字世界的模拟。

可灵也似乎能生成如Sora效果般的视频，真实还原物理世界。例如，一个人吃汉堡时，嘴角容易沾上酱料，汉堡留下咬痕。在可灵官网展示的demo中，小男孩吃汉堡的动作、神态均比较自然。

国外网友@Garry Tan 看到这条视频后，直呼“Oh man this is me.（天哪，这就是我！）”

国产Sora赛道无战事

(prompt：一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡，图源官网。)

但在细节的处理方面，快手可灵仍展现出与Sora的明显差距。

傅盛曾用快手可灵模仿Sora气球人的视频，在一些镜头中，不难发现气球里还有人头。且就气球本身来说，Sora的气球透明度非常自然，和现实中的气球一模一样。而可灵的气球被撑得很大，在阳光下几乎看不到透明度的变化。

国产Sora赛道无战事

(图源@傅盛讲AI）

此外，Sora能够接受提示词、图像乃至视频作为输入，大模型将根据用户的输入来生成视频。多样的输入选择背后，是OpenAI多模态大模型的支撑。

由于Sora有OpenAI文生图模型DALLE3的加持，可将许多没有文本标注的视频自动进行标注，用于视频生成的训练。

同时，ChatGPT也可以把用户的输入扩写成细节更详细的描述，有效帮助Sora提取和理解用户的需求，使生成的视频更符合用户预期。

举个例子，输入“女性在商店购物”，ChatGPT可能会扩展联想到女性的衣服、商店的装饰、购物的类型等信息。

在这方面，快手可灵就不容易直接“复制”Sora了。

快手旗下的通用语言大模型“快意”，功能远不如GPT，在国内大模型梯队中，其存在感也较弱。快意对可灵语义理解上的助力，很可能是有限的。

目前，快手可灵支持文本输入、图片输入，另支持多种控制信息输入，如相机运镜、帧率、边缘/关键点/深度等，但没有提供视频输入的功能。

“生死线”变迁

以Sora横空出世为分界线，AI生成视频领域被划成分“10秒以内的时代”，以及“60秒及以上的时代”。

此前，国内没有一个产品，可以把视频做到10秒，10秒也成了衡量产品的“生死线”。

火爆全网的AI 视频生成应用Pika，在去年11月末正式发布，比Sora早几个月，仅能生成长度为3秒的24帧视频。

如果存在时长超过10秒的产品，基本是拼接起来的视频。

代表产品有百度AI文生视频的功能，自动根据文字内容，帮助寻找合适的视频素材，再输出视频，实质是对现有素材的拼接，没有涉及生成新的视频内容。

也有让单帧的图片“动”起来的文生视频技术，代表产品有阿里的EMO模型，输入声音和图片后，比如输入一首歌与人的照片，就能生成人在唱歌的短视频。

上述产品都只是“从有到有”，而Sora带来了文生视频技术真正实现了“从无到有”，直接跃升至“构建现实”的新高度。

Sora发布后，“生死线”延长至60秒。被震撼和刺激到的国内厂商，开启了追赶之路。

Pika 创始人郭文景表示，“（Sora）是一个振奋人心的消息，我们准备直接冲，将直接对标Sora。”经过几次更新，目前Pika把画面延长至4秒，只够做成表情包。

第一个跨越10秒“生死线”的企业，是背靠“清华系”的生数科技，旗下Vidu大模型4月首次亮相时，可以生成16秒视频，赢得了“中国版Sora”的称号。不到2个月，Vidu又宣布实现32秒视频的升级。

第一个跨越10秒“生死线”的大厂，是腾讯旗下的混元大模型，也是能生成16秒视频。

而抖音集团旗下的Dreamina（即梦）有所掉队，目前只支持生成3秒视频。

国产Sora赛道无战事

1秒的延长，往往意味着技术路线、训练数据等环节的大量研究与优化。单是训练素材，视频比文体、图像都更紧缺，收集、清洗、标记的难度更大。

套用Sam Altman 解释为何 GPT 会比其他的大模型更好的理由，是因为 OpenAI 堆了“一百万个小技巧”。

腾讯混元大模型能跨过10秒门槛，主要是全面升级了基础架构，由传统的U-Net改为DiT架构，参数量提升十几倍等。

快手可灵起初是支持2分钟视频，通过增加频续写功能，成功延长至3分钟。但快手可灵开放的内测，只支持生成几秒的视频。

视频长度与连贯性高度相关，国内视频大模型长期在10秒内止步，便是无法做到在确保时长的基础上，兼具人物和场景、前后语境逻辑等方面的连贯。为了画面流畅度，厂商宁愿放弃时长。

比如，当一个人遛狗，狗怎么走路？遇见路人时会有什么反应？人和狗移动时周边环境如何同步变化？我们在日常生活中习惯的场景，放在虚拟世界，却是极其复杂的问题。

“可灵肯定是一个非常复杂的，重资源投入，多兵种协作的复杂项目，肯定不是一个单一的天才的想法随便搞出来的东西。”快手视觉生成与互动中心负责人万鹏飞表示。

冷静的战场

ChatGPT发布后，国内大厂争先恐后上线通用语言大模型。不到两年，该领域就已历经“百模大战”、“开源与闭源之争”、“价格战”，百度、阿里、腾讯、字节、华为集体亲自下场交锋，火药味十足。

而AI生成视频要冷清得多，当OpenAI抛出Sora这一“王炸”后，讨论热度依然高居不下，但在产品数量上，国内没有重现语言大模型的盛况。

只有字节的海外版剪映跟进推出了文生视频产品的测试版，且反响不佳。有网友反馈，生成一个视频得等约1800分钟。

资本也把主要的热情分给通用语言大模型，同样是初创公司，Kimi的月之暗面估值超200亿人民币，生数科技估值刚超过1亿美元。

即便是可灵，对快手拉高市值也没有什么影响。6月以来，快手的股价持续下跌，7月12日才稍有起色。

然而，这并不代表大厂对视频缺乏兴趣，只是换了种玩法。

“App工厂”字节继续做擅长的事，用应用的方式打开AI生成视频，推出了即梦App，约两分钟就能生成了3 秒的视频，进步显著。要延长3 秒，则需购买会员。

腾讯在上线自研混元大模型的同时，也发布了文生图大模型，并且全面开源，可以免费商用。

百度倾向于寻找优质的投资标的，早看中了生数科技，华为、阿里也参与押注。

玩法变动背后，是国内厂商考验性价比的结果。光卷文本大模型，大厂都有些分身乏力。

由于Sora完全闭源，OpenAI对技术细节守口如瓶，让竞争对手难以“抄作业”。

算力荒为另一大痛点，哪怕大厂有资金、技术的绝对优势，在AI时代，无论公司规模大小，都是创业者，很难轻易全力投入。

中信证券曾简单估算，一个60帧的视频（约6—8秒）需要约6万个Patches，以去噪步数为20计算，相当于要生成120万个Tokens。考虑到扩散模型在实际使用时需要多次生成的特点，实际计算量会远超120万个Tokens。

业界也流传，Sora 的参数规模在 100亿到 300亿之间，所需的算力或与千亿级的大语言模型差不多。

这意味着，同等参数的视频模型，所需的算力比大语言模型多几十倍。

何况，不像语言大模型已指出较明确的B端商业化路径，视频大模型还在摸索阶段，甚至连全面公测都有较远的距离。快手可灵也暂无商业化计划，不对外提供API。

OpenAI CTO 曾指出， Sora 拟2024 年年内对外推出。

OpenAI向来不打无准备的战，届时Sora的开放，或又是进一步盘活国内AI生成视频赛道的鲶鱼。

说明：数据源于公开披露，不构成任何投资建议，投资有风险，入市需谨慎。

文章来源于“懂财帝”，作者“嘉逸”

国产Sora赛道无战事

关键词: sora , AI视频 , 可灵 , 大模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0