字节跳动以性价比策略切入市场,掀起价格竞争,但高性能模型仍保持付费门槛。B端市场对豆包视频大模型的接纳度有待观察,其商业变现与用户场景适配性成为主要考验。
作者丨萧维
编辑丨蕨影
一场由Sora引发的AI视频生成竞赛,如今迎来新的竞争者!
9月24日,2024火山引擎AI创新巡展深圳站上,字节跳动的两款AI视频模型—豆包视频生成-PixelDance、豆包视频生成-Seaweed发布,并面向企业市场开启邀测。
距离Sora已经横空出世已经超过7个月,这段时间国产视频大模型的发布此起彼伏,围剿Sora在商业语境中似乎成为参与玩家的共有使命。
字节在七个月之后,才选择正式蹚入这条沸腾之河,而此时在其面前,不止有Sora,一众国产大模型弄潮儿,还有一个抖音眼熟的名字—快手。
老对手,新领域,可灵AI的影响力正在被加速释放,在这一点上,字节如坐针毡,毕竟强如Sora,仍是外敌,而快手AI,早已杀到城下。
追逐使命还是修筑护城河,囊外还是安内,答案藏在视频大模型里—字节不做选择题。
无论战局多么复杂,源头都能追溯到Sora。
2024年2月,OpenAI公布的Sora AI视频生成模型成为全世界的焦点,凭借提供提示词描述或者静态图片,Sora就能生成超高画质、质感直逼电影的画面,最高能达到1分钟视频的体量,直接震撼了国产大模型行业。
随后,国产厂商集体发力视频大模型,才有围堵Sora的大趋势。《生成式AI商业落地白皮书》显示,当前有53%的中国企业已开始有组织地进行生成式AI布局。这意味着,很多中国企业已意识到生成式AI技术对于自身发展的重要性,并将在其中投入资源和精力。而自今年5月起,国内达到类Sora级别的 AI 视频模型技术陆续公布,生数、智象未来(HiDream.ai)等腰部企业轮番登场,智谱AI推出视频生成模型“清影”、爱诗科技发布视频生成产品PixVerse V2、生数科技上线视频生成模型Vidu扎堆七月亮相,整个赛道热闹非凡。
但一众视频大模型追赶Sora的过程,有一家的产品可谓一鸣惊人,它就是6月6日开启邀测的快手可灵 AI 视频生成模型。
快手可灵刚一推出,就凭借参数博得了市场的关注:视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),单次文生视频时长已增至10秒,指标全部位于业绩前列。
工具从来都是辅助,而快手可灵俘获用户的速度之快,让人始料不及。在快手光合创作者大会上,官方透露的数据为:超过 160 万人使用过快手的视频生成大模型可灵AI,累计生成超 1600 万条视频。
口碑、热度、性能俱佳,可灵AI成为目前国内排名最高的视频生成类AI应用,自然是水到渠成。
对手收获掌声,字节五味杂陈。实际上,字节在AI大模型的布局比快手还早。2023年8月,该公司上线首个大语言模型“豆包”及多模态大模型BuboGPT。其抖音云雀大模型通过首批《生成式人工智能服务管理暂行办法》备案,面向公众开放;字节跳动基础模型发力语言和图像两种模态方向。而在AI应用层,字节跳动不仅已去年11月成立新AI部门Flow,还已推出三款AI对话类产品,包括豆包、扣子和Cici。
但是,需要注意的是,字节AI产品对平台内容的加持是否得到市场认可,还需要进一步验证,而在B站等内容平台中,用AI二创视频已经成为赛道,同时也降低了创作者门槛,为平台扩充内容提供了有力支撑。
抖快之争向来是短视频赛道的焦点,而当对手手握超级武器后,字节自然如坐针毡,本次隆重推出的两款视频模型,既是与Sora一争高下,更是与快手的军备竞赛,攘外安内的字节,接下来势必动作频频。
当前,视频大模型最能直观打动人,就是参数,但本次字节推出视频大模型,却反其道而行之,到目前为止字节仍未透露两款产品可以生成的最大时间长度。
如此重要的内容没有公布,原因可能只有一个:还有其他更重要的东西需要被市场了解。字节相关人士在介绍本次模型的特点时,多次强调其为多场景而生,其中三个核心功能更是颇为惊艳。
精准语义理解上,豆包AI视频生成能够遵从复杂的用户提示词,形成多个主体、人、物之间的互动画面。
画面展现上,豆包AI视频具有逼真的动态与丝滑的运镜,并具备变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力,灵活控制视角,同时保持主体、风格和氛围的一致性。
画质上,大模型支持包括黑白、3D 动画、2D 动画、国画等多种风格,包含1:1、3:4、4:3、16:9、9:16、21:9 六个比例,适配于各种终端,以及电影、手机竖屏等不同画幅,质感优秀,格调出众。
实际上,豆包视频大模型在多场景上的发力,也正是字节大模型商业化的设计构想,电商、城市文旅、音乐 MV、微电影、短剧等应用场景,都是豆包·视频生成模型助力客户实现降本提效和创意合规的主战场。
可以说,豆包视频大模型聚焦ToB业务的商业逻辑十分清晰,而下一步则是依靠价格杀出重围。早在今年 5 月,火山引擎推出的豆包大模型把价格降至最低每千 token 低于一厘钱,比行业便宜99.3%,燃起了大模型厂商的价格战。
字节视频大模型相关人士曾透露当下价格与市场份额之间的关系:价格降十分之一,量就可能涨十倍。这种量价关系下,对于先期获得市场的大模型厂商来说,势必要跟进低价策略。
以豆包语言模型为例,据官方披露,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。
这就是低价的魔力,但需要注意的是,惨烈的价格战中,各方拿出手的基本是偏轻量化的模型版本,压箱底的高性能模型并没有参与,这多少说明了大模型厂商的态度:给点甜头尝尝,但要好的,得买单。
B端会不会为豆包视频大模型买单,还需要观察。但从以往大模型的落地来看,B端市场的需求适配用时并不会太短,而降本增效的核心诉求如何满足,考验的不仅是厂商大模型的能力,更是用户自身对业务逻辑梳理打磨的能力。换言之,大模型这份收入,很难挣。
抖音的长视频野望,可以靠AI视频大模型内容生成来作为支撑。
随着流量进入存量周期,短视频平台用内容留存用户,成了当务之急,2018年短视频用户规模增长率为107.0%,2020迅速降低到15.2%,而抖音DAU破6亿后,出现了增长放缓的态势。
老对手快手的情况更为明显,据快手2024年一季度财报显示,快手实际月活人数为6.97亿,较上一季度环比下降0.4%,呈现流失趋势,二季度平均月活为6.92亿,再次下探。
这可能才是视频大模型最需要解决的问题:内容创作赋能,保住用户规模基本盘。
在豆包视频大模型发布前,《山海奇镜之劈波斩浪》和《三星堆:未来启示录》就是抖音和快手在AI内容领域的官方尝试,前者属于AI科幻短剧,后者则是AI奇幻短剧。
官方作品具有引导意义,但要想撬动更多内容创作者加入赛道,还需要更多行动。
不过,AI内容创作这一点上,抖音与快手态度趋同:鼓励,但反对低质。今年6月,快手电商发布了使用AIGC能力直播的倡议公告,鼓励商家/达人和老铁们进行良好互动,但明确了流量不会倾斜,避免低质内容。来到9 月 8 日,抖音则公布了关于“发布特定内容需主动添加标识”的公告,鼓励创作者尊重事实、发布客观真实信息,同时对于特定信息,应以“内容标识”的形式提供充分的说明,降低用户的理解成本。
但事实上,创作者和用户显然更关注AI创作带来的娱乐性,“容嬷嬷喂紫薇吃香肠”“唐僧啃鸡腿、吃汉堡”“悟空掏手枪”“尔康失态”等无脑爆改短视频风靡全网,以脑洞、爆笑等元素获得了粉丝的关注,抖音上,相关话题“当AI扩图卷土重来”登上热榜,截至目前共有3.9亿次播放。
对于抖音来说,这是个不错的开始,内容拓展后,粉丝粘性提高、收入提升、制作成本下降,都是AI视频大模型带来的优势,当然抖音更大的期待,还包括规避版权费风险。
两年前,爱奇艺、优酷、腾讯视频等长视频平台,70多家影视机构、数百名艺人先后两次公开发布“联合声明”,呼吁短视频平台和公众账号生产运营者尊重原创、保护版权,强调未经授权,不得使用影视作品侵权创作,这份声明中明确指出将对侵权行为依法追责。矛头直指抖音等短视频巨头。随后,抖音与腾讯更是因《云南虫谷》和《亮剑》等作品,互告对方侵权。
和解发生在短剧爆火后,长短视频巨头为了进军新市场握手言和,互相借助优势成为新趋势。但从长远看,抖音短视频二创还依赖原创视频素材,风险并未化解,而随着AIGC内容的开启,抖音在版权侧至少可以安心落地,二创的素材库也更加丰富安全,确实是抖音乐得所见。
从这个角度看,字节的视频大模型确实任重而道远了。
参考资料:
1、《快手盖坤:可灵AI已生成视频超1600万条,用户超160万人 》,新京报
2、《抖音快手激战人工智能大模型》,亿邦动力
3、《豆包进击,字节版Sora“虽迟但到” 火山引擎总裁谭待:一落地就开始考虑商业化》,每日经济新闻
4、《AI生成视频,究竟有多癫狂?》,无限智能
文章来源“科技新知”,作者“萧维”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales