ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI视频中看不用?百度不做视频模型的原因很简单
2814点击    2024-11-06 14:45

如果百度贸然去做Sora类视频生成模型,要从哪里收回成本?


自打ChatGPT让人工智能这个概念迎来第二春,百度创始人李彦宏也重新活跃了起来,成为了几乎是最爱发声的互联网大佬。在此前先后发表AI终结程序员、开源模型会越来越落后等言论之后,有消息称在最近举行的百度2024年第三季度总监会上他又放话,“百度不碰Sora类的视频生成。”



那么他对Sora这种文生视频模型泼冷水,到底是因为百度有力未逮,还是认为文生视频模型做不出商业价值呢?尽管目前百度方面并没有推出视频模型,国内市场也基本是快手可灵与抖音即梦在打擂台,但尚未涉及文生视频赛道的百度也并不属于“吃不到葡萄就说葡萄酸”。毕竟作为国内率先押注AI的厂商,百度的技术实力无需多言。



况且类似Sora这样文生视频模型的技术原理并不晦涩,OpenAI都已经把Transformer架构+扩散模型的组合摆在了台面上。除了抖音和快手拥有大量可用于训练的短视频资源之外,与爱奇艺关系匪浅的百度显然也不会缺少训练这类模型的语料。所以问题的关键,很可能在于视频模型本身的盈利能力存疑。对此李彦宏表示,Sora这种视频生成模型的投入周期太长,10年、20年可能都拿不到业务收益。



此前在今年年初,OpenAI放出的Sora确实给了外界巨大的震撼。毕竟在Sora亮相之前,业界最好的文生视频产品Runway、Pika,也都只能做到生成一段不到十秒的视频,与其说它们生成的是视频、还不如说是一段GIF,而Sora当时就做到了生成连贯的一分钟视频,且展现出了在多角度多镜头切换中保持一致性,以及遵循现实世界物理规律的能力。


在短视频席卷全球的情况下,当时Sora的出现曾被外界认为是实现“技术普惠”的曙光。Sora的横空出世也直接开启了视频模型的“大跃进”,包括海外的Runway、Pika先后进行迭代,开始逐步追上了Sora的水平,而国内市场的快手可灵、抖音即梦两大最成熟的产品则实现了“青出于蓝而胜于蓝”。只是各方针对视频模型的军备竞赛似乎真的只是为了秀技术,业界也不约而同地选择性了忽略成本问题。



此前,风险投资机构Factorial Funds曾以Sora的理论基础Diffusion Transformers为基准,对Sora的成本进行过相关测算。根据他们的说法,训练视频模型比常规大语言模型的成本高出了数倍,OpenAI训练Sora是用4211至10528片英伟达H100 GPU训练了1个月。并且一旦Sora推出后,在Tiktok和Youtube上得到广泛的应用,那么OpenAI需要的算力就相当于72万张H100。



到目前为止,OpenAI手里的H100 GPU可能也不会超过10万片,就算使用“潮汐资源”也覆盖不了如此巨大的算力缺口。事实上,算力卡还仅仅只是硬件成本中的一部分,运行这些GPU所需的电力同样也是天文数字,以每片H100的功耗为700W计算,72万片的总功耗就将达到50.4万千瓦,而‌大亚湾核电站的总装机容量为612万千瓦,所以这也是为什么微软、谷歌等大厂会盯上核电的原因。


更为致命的一点,是目前的视频模型可用性远低于大家的想象。Sora这种生成具有连贯性的1分钟长视频还仅存在于理论中,现实情况是视频片段的一致性问题到现在都没能得到解决,生成视频的时间一长、AI就会放飞自我。以快手基于可灵打造的短剧《山海奇镜之劈波斩浪》为例,它实际上并不是由多个一分钟视频拼接起来,而是由可灵生成了海量5秒时长的分镜头,再由后期剪辑团队剪辑而成。



同理,使用Sora生成的短片《气球人》也不是纯粹使用AI生成,同样也是人类团队后期加工的结果。此外,所有的AI生成视频模型都说要做世界模拟器(world simulators),但现实是AI对于物理规律的理解还是伪命题,如果不进行后期调整,AI直出的视频会相当之呆板。


由于AI文生视频只能在数秒内实现内容的一致性,所以对于创作者的价值确实不算大。按照目前快手可灵、Runway视频模型的收费标准,平均生成一段5s的视频收费在0.5—2元不等,再加上比一般视频更高的后期成本,算下来还真不如全人工拍摄。这也就能解释OpenAI的Sora为何雷声大雨点小,AI视频生成产品Luma AI在9月的总访问量环比下跌38.49%、Pika总访问量环比下跌9.78%了。



其实抖音、快手押注视频模型是有迹可循的,毕竟这也是短视频平台实现“人人皆是创作者”的机会。用户不需要懂得任何视频拍摄、剪辑的知识,足不出户就能把文字变成视频,这对一个强调内容供给,主打无时无刻满足用户的平台来说,他们对于创作者的渴求显然是无穷无尽的。所以即梦、可灵的存在,代表平台可以为每一位用户插上创造的翅膀,因此就算再烧钱,快手和抖音也会做下去。



可百度完全不一样,尽管他们确实有短视频业务,但之于百度还能算得上是“甜点”。再加上百度从来都不是一个以内容见长的互联网厂商,也没有自己的短视频平台,所以如果贸然去做Sora类的视频生成模型,又要从哪里收回成本呢?因此这样看来,百度确实不该做Sora,真正应该去做的反而是腾讯。


文章来自于微信公众号“三易生活”,作者“三易菌”