ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
国产Sora赛道无战事
8004点击    2024-07-15 13:17

快手“可灵”爆火,大厂如何做好国产Sora?


哪怕大厂有资金、技术的绝对优势,在AI时代,无论公司规模大小,都是创业者,很难轻易全力投入。

距离OpenAI发布Sora已过去近半年,国内的挑战者轮番上阵,只增不减。


就在刚结束的2024年世界人工智能大会(WAIC)上,多个“中国版Sora”亮相。


快手发布了可灵大模型的更新版本,主打时长最高达3分钟;商汤推出了最新的人物 AI 视频模型 Vimi,主打技术的“可控性”;阿里达摩院发布AI视频创作平台“寻光”,主打剧本创作辅助。


虽然AI生成式视频久违地热闹了一番,但整体掀起的水花并不大。尽管对谁才是中国版Sora的争夺从未停止,得到业内普遍认可的产品仍未出现,但快手成了最新的变数。


无论是技术路线,还是视频时长、生成效果,快手的可灵大模型似乎最像Sora。


“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的。”在测试快手可灵后,猎豹创始人傅盛不吝赞美。


值得注意的是,傅盛提到了“使用范畴”。眼下,国内AI视频的玩家有限,Sora又始终保持神秘,某种程度上“衬托”出了快手可灵的相对优势。


「国产 Sora」又来了?


在Sora发布的几天前,张楠宣布辞任抖音集团CEO,亲自带队转战剪映,寻求在AI视频的突破。


同为短视频平台巨头,快手长期被抖音压过风光,在大模型时代,外界也惯性般对抖音寄予厚望,将其视为狙击Sora的种子选手。


就在人们翘首以待,张楠会交出怎样的成绩时,快手CEO程一笑却“截了胡”。


被Sora吊足了胃口的国内外网友们,被快手可灵的demo效果惊艳到,在线求试用名额。至少在国内的AI生成视频领域,这是少见的情况。


据快手透露,可灵大模型上线一个月以来,累计申请用户数50万+,开通用户数30万+,生成视频数700万。


被外界赋予“中国版Sora”的产品不少,但快手可灵最担得起该称号的吗?


先从技术路线说起,快手可灵的架构采用了类Sora的DiT结构,即以Diffusion和Transformer结合的方式,替代了传统扩散模型中基于卷积网络的U-Net。



Transformer具有较好的可拓展性,其结构会随着模型的增大,效果会持续变好。而U-Net会在模型增大到一定范围时,所受的增益效果放缓甚至停止。


Sora能在AI生成式视频实现质的飞跃,正是技术底层架构的巧妙选择。阿里巴巴达摩院的分析认为,Sora 的智能涌现,体现在其三位一致性、长距离连贯性和物体持久性、与世界互动的能力、对数字世界的模拟。


可灵也似乎能生成如Sora效果般的视频,真实还原物理世界。例如,一个人吃汉堡时,嘴角容易沾上酱料,汉堡留下咬痕。在可灵官网展示的demo中,小男孩吃汉堡的动作、神态均比较自然。


国外网友@Garry Tan 看到这条视频后,直呼“Oh man this is me.(天哪,这就是我!)”



(prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡,图源官网。)


但在细节的处理方面,快手可灵仍展现出与Sora的明显差距。


傅盛曾用快手可灵模仿Sora气球人的视频,在一些镜头中,不难发现气球里还有人头。且就气球本身来说,Sora的气球透明度非常自然,和现实中的气球一模一样。而可灵的气球被撑得很大,在阳光下几乎看不到透明度的变化。



(图源@傅盛讲AI)


此外,Sora能够接受提示词、图像乃至视频作为输入,大模型将根据用户的输入来生成视频。多样的输入选择背后,是OpenAI多模态大模型的支撑。


由于Sora有OpenAI文生图模型DALLE3的加持,可将许多没有文本标注的视频自动进行标注,用于视频生成的训练。


同时,ChatGPT也可以把用户的输入扩写成细节更详细的描述,有效帮助Sora提取和理解用户的需求,使生成的视频更符合用户预期。


举个例子,输入“女性在商店购物”,ChatGPT可能会扩展联想到女性的衣服、商店的装饰、购物的类型等信息。


在这方面,快手可灵就不容易直接“复制”Sora了。


快手旗下的通用语言大模型“快意”,功能远不如GPT,在国内大模型梯队中,其存在感也较弱。快意对可灵语义理解上的助力,很可能是有限的。


目前,快手可灵支持文本输入、图片输入,另支持多种控制信息输入,如相机运镜、帧率、边缘/关键点/深度等,但没有提供视频输入的功能。


“生死线”变迁


以Sora横空出世为分界线,AI生成视频领域被划成分“10秒以内的时代”,以及“60秒及以上的时代”。


此前,国内没有一个产品,可以把视频做到10秒,10秒也成了衡量产品的“生死线”。


火爆全网的AI 视频生成应用Pika,在去年11月末正式发布,比Sora早几个月,仅能生成长度为3秒的24帧视频。


如果存在时长超过10秒的产品,基本是拼接起来的视频。


代表产品有百度AI文生视频的功能,自动根据文字内容,帮助寻找合适的视频素材,再输出视频,实质是对现有素材的拼接,没有涉及生成新的视频内容。


也有让单帧的图片“动”起来的文生视频技术,代表产品有阿里的EMO模型,输入声音和图片后,比如输入一首歌与人的照片,就能生成人在唱歌的短视频。


上述产品都只是“从有到有”,而Sora带来了文生视频技术真正实现了“从无到有”,直接跃升至“构建现实”的新高度。


Sora发布后,“生死线”延长至60秒。被震撼和刺激到的国内厂商,开启了追赶之路。


Pika 创始人郭文景表示,“(Sora)是一个振奋人心的消息,我们准备直接冲,将直接对标Sora。”经过几次更新,目前Pika把画面延长至4秒,只够做成表情包。


第一个跨越10秒“生死线”的企业,是背靠“清华系”的生数科技,旗下Vidu大模型4月首次亮相时,可以生成16秒视频,赢得了“中国版Sora”的称号。不到2个月,Vidu又宣布实现32秒视频的升级。


第一个跨越10秒“生死线”的大厂,是腾讯旗下的混元大模型,也是能生成16秒视频。


而抖音集团旗下的Dreamina(即梦)有所掉队,目前只支持生成3秒视频。



1秒的延长,往往意味着技术路线、训练数据等环节的大量研究与优化。单是训练素材,视频比文体、图像都更紧缺,收集、清洗、标记的难度更大。


套用Sam Altman 解释为何 GPT 会比其他的大模型更好的理由,是因为 OpenAI 堆了“一百万个小技巧”。


腾讯混元大模型能跨过10秒门槛,主要是全面升级了基础架构,由传统的U-Net改为DiT架构,参数量提升十几倍等。


快手可灵起初是支持2分钟视频,通过增加频续写功能,成功延长至3分钟。但快手可灵开放的内测,只支持生成几秒的视频。


视频长度与连贯性高度相关,国内视频大模型长期在10秒内止步,便是无法做到在确保时长的基础上,兼具人物和场景、前后语境逻辑等方面的连贯。为了画面流畅度,厂商宁愿放弃时长。


比如,当一个人遛狗,狗怎么走路?遇见路人时会有什么反应?人和狗移动时周边环境如何同步变化?我们在日常生活中习惯的场景,放在虚拟世界,却是极其复杂的问题。


“可灵肯定是一个非常复杂的,重资源投入,多兵种协作的复杂项目,肯定不是一个单一的天才的想法随便搞出来的东西。”快手视觉生成与互动中心负责人万鹏飞表示。


冷静的战场


ChatGPT发布后,国内大厂争先恐后上线通用语言大模型。不到两年,该领域就已历经“百模大战”、“开源与闭源之争”、“价格战”,百度、阿里、腾讯、字节、华为集体亲自下场交锋,火药味十足。


而AI生成视频要冷清得多,当OpenAI抛出Sora这一“王炸”后,讨论热度依然高居不下,但在产品数量上,国内没有重现语言大模型的盛况。


只有字节的海外版剪映跟进推出了文生视频产品的测试版,且反响不佳。有网友反馈,生成一个视频得等约1800分钟。


资本也把主要的热情分给通用语言大模型,同样是初创公司,Kimi的月之暗面估值超200亿人民币,生数科技估值刚超过1亿美元。


即便是可灵,对快手拉高市值也没有什么影响。6月以来,快手的股价持续下跌,7月12日才稍有起色。


然而,这并不代表大厂对视频缺乏兴趣,只是换了种玩法。


“App工厂”字节继续做擅长的事,用应用的方式打开AI生成视频,推出了即梦App,约两分钟就能生成了3 秒的视频,进步显著。要延长3 秒,则需购买会员。


腾讯在上线自研混元大模型的同时,也发布了文生图大模型,并且全面开源,可以免费商用。


百度倾向于寻找优质的投资标的,早看中了生数科技,华为、阿里也参与押注。


玩法变动背后,是国内厂商考验性价比的结果。光卷文本大模型,大厂都有些分身乏力。


由于Sora完全闭源,OpenAI对技术细节守口如瓶,让竞争对手难以“抄作业”。


算力荒为另一大痛点,哪怕大厂有资金、技术的绝对优势,在AI时代,无论公司规模大小,都是创业者,很难轻易全力投入。


中信证券曾简单估算,一个60帧的视频(约6—8秒)需要约6万个Patches,以去噪步数为20计算,相当于要生成120万个Tokens。考虑到扩散模型在实际使用时需要多次生成的特点,实际计算量会远超120万个Tokens。


业界也流传,Sora 的参数规模在 100亿到 300亿之间,所需的算力或与千亿级的大语言模型差不多。


这意味着,同等参数的视频模型,所需的算力比大语言模型多几十倍。


何况,不像语言大模型已指出较明确的B端商业化路径,视频大模型还在摸索阶段,甚至连全面公测都有较远的距离。快手可灵也暂无商业化计划,不对外提供API。


OpenAI CTO 曾指出, Sora 拟2024 年年内对外推出。


OpenAI向来不打无准备的战,届时Sora的开放,或又是进一步盘活国内AI生成视频赛道的鲶鱼。


说明:数据源于公开披露,不构成任何投资建议,投资有风险,入市需谨慎。


文章来源于“懂财帝”,作者“嘉逸


关键词: sora , AI视频 , 可灵 , 大模型
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0