ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI视频新战场:字节对决快手、反击Sora
6749点击    2024-09-29 14:15

字节跳动以性价比策略切入市场,掀起价格竞争,但高性能模型仍保持付费门槛。B端市场对豆包视频大模型的接纳度有待观察,其商业变现与用户场景适配性成为主要考验。


作者丨萧维 


编辑丨蕨影


一场由Sora引发的AI视频生成竞赛,如今迎来新的竞争者!


9月24日,2024火山引擎AI创新巡展深圳站上,字节跳动的两款AI视频模型—豆包视频生成-PixelDance、豆包视频生成-Seaweed发布,并面向企业市场开启邀测。


距离Sora已经横空出世已经超过7个月,这段时间国产视频大模型的发布此起彼伏,围剿Sora在商业语境中似乎成为参与玩家的共有使命。


字节在七个月之后,才选择正式蹚入这条沸腾之河,而此时在其面前,不止有Sora,一众国产大模型弄潮儿,还有一个抖音眼熟的名字—快手。


老对手,新领域,可灵AI的影响力正在被加速释放,在这一点上,字节如坐针毡,毕竟强如Sora,仍是外敌,而快手AI,早已杀到城下。


追逐使命还是修筑护城河,囊外还是安内,答案藏在视频大模型里—字节不做选择题。


字节杀入,Sora遭遇围堵



无论战局多么复杂,源头都能追溯到Sora。


2024年2月,OpenAI公布的Sora AI视频生成模型成为全世界的焦点,凭借提供提示词描述或者静态图片,Sora就能生成超高画质、质感直逼电影的画面,最高能达到1分钟视频的体量,直接震撼了国产大模型行业。



随后,国产厂商集体发力视频大模型,才有围堵Sora的大趋势。《生成式AI商业落地白皮书》显示,当前有53%的中国企业已开始有组织地进行生成式AI布局。这意味着,很多中国企业已意识到生成式AI技术对于自身发展的重要性,并将在其中投入资源和精力。而自今年5月起,国内达到类Sora级别的 AI 视频模型技术陆续公布,生数、智象未来(HiDream.ai)等腰部企业轮番登场,智谱AI推出视频生成模型“清影”、爱诗科技发布视频生成产品PixVerse V2、生数科技上线视频生成模型Vidu扎堆七月亮相,整个赛道热闹非凡。


但一众视频大模型追赶Sora的过程,有一家的产品可谓一鸣惊人,它就是6月6日开启邀测的快手可灵 AI 视频生成模型。


快手可灵刚一推出,就凭借参数博得了市场的关注:视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),单次文生视频时长已增至10秒,指标全部位于业绩前列。


工具从来都是辅助,而快手可灵俘获用户的速度之快,让人始料不及。在快手光合创作者大会上,官方透露的数据为:超过 160 万人使用过快手的视频生成大模型可灵AI,累计生成超 1600 万条视频。


口碑、热度、性能俱佳,可灵AI成为目前国内排名最高的视频生成类AI应用,自然是水到渠成。


对手收获掌声,字节五味杂陈。实际上,字节在AI大模型的布局比快手还早。2023年8月,该公司上线首个大语言模型“豆包”及多模态大模型BuboGPT。其抖音云雀大模型通过首批《生成式人工智能服务管理暂行办法》备案,面向公众开放;字节跳动基础模型发力语言和图像两种模态方向。而在AI应用层,字节跳动不仅已去年11月成立新AI部门Flow,还已推出三款AI对话类产品,包括豆包、扣子和Cici。


但是,需要注意的是,字节AI产品对平台内容的加持是否得到市场认可,还需要进一步验证,而在B站等内容平台中,用AI二创视频已经成为赛道,同时也降低了创作者门槛,为平台扩充内容提供了有力支撑。


抖快之争向来是短视频赛道的焦点,而当对手手握超级武器后,字节自然如坐针毡,本次隆重推出的两款视频模型,既是与Sora一争高下,更是与快手的军备竞赛,攘外安内的字节,接下来势必动作频频。


不拼参数拼场景,谁来买单?



当前,视频大模型最能直观打动人,就是参数,但本次字节推出视频大模型,却反其道而行之,到目前为止字节仍未透露两款产品可以生成的最大时间长度。


如此重要的内容没有公布,原因可能只有一个:还有其他更重要的东西需要被市场了解。字节相关人士在介绍本次模型的特点时,多次强调其为多场景而生,其中三个核心功能更是颇为惊艳。

精准语义理解上,豆包AI视频生成能够遵从复杂的用户提示词,形成多个主体、人、物之间的互动画面。


画面展现上,豆包AI视频具有逼真的动态与丝滑的运镜,并具备变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力,灵活控制视角,同时保持主体、风格和氛围的一致性。



画质上,大模型支持包括黑白、3D 动画、2D 动画、国画等多种风格,包含1:1、3:4、4:3、16:9、9:16、21:9 六个比例,适配于各种终端,以及电影、手机竖屏等不同画幅,质感优秀,格调出众。


实际上,豆包视频大模型在多场景上的发力,也正是字节大模型商业化的设计构想,电商、城市文旅、音乐 MV、微电影、短剧等应用场景,都是豆包·视频生成模型助力客户实现降本提效和创意合规的主战场。


可以说,豆包视频大模型聚焦ToB业务的商业逻辑十分清晰,而下一步则是依靠价格杀出重围。早在今年 5 月,火山引擎推出的豆包大模型把价格降至最低每千 token 低于一厘钱,比行业便宜99.3%,燃起了大模型厂商的价格战。


字节视频大模型相关人士曾透露当下价格与市场份额之间的关系:价格降十分之一,量就可能涨十倍。这种量价关系下,对于先期获得市场的大模型厂商来说,势必要跟进低价策略。


以豆包语言模型为例,据官方披露,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。


这就是低价的魔力,但需要注意的是,惨烈的价格战中,各方拿出手的基本是偏轻量化的模型版本,压箱底的高性能模型并没有参与,这多少说明了大模型厂商的态度:给点甜头尝尝,但要好的,得买单。


B端会不会为豆包视频大模型买单,还需要观察。但从以往大模型的落地来看,B端市场的需求适配用时并不会太短,而降本增效的核心诉求如何满足,考验的不仅是厂商大模型的能力,更是用户自身对业务逻辑梳理打磨的能力。换言之,大模型这份收入,很难挣。


AI驱动,打破版权壁垒



抖音的长视频野望,可以靠AI视频大模型内容生成来作为支撑。


随着流量进入存量周期,短视频平台用内容留存用户,成了当务之急,2018年短视频用户规模增长率为107.0%,2020迅速降低到15.2%,而抖音DAU破6亿后,出现了增长放缓的态势。


老对手快手的情况更为明显,据快手2024年一季度财报显示,快手实际月活人数为6.97亿,较上一季度环比下降0.4%,呈现流失趋势,二季度平均月活为6.92亿,再次下探。


这可能才是视频大模型最需要解决的问题:内容创作赋能,保住用户规模基本盘。


在豆包视频大模型发布前,《山海奇镜之劈波斩浪》和《三星堆:未来启示录》就是抖音和快手在AI内容领域的官方尝试,前者属于AI科幻短剧,后者则是AI奇幻短剧。


官方作品具有引导意义,但要想撬动更多内容创作者加入赛道,还需要更多行动。


不过,AI内容创作这一点上,抖音与快手态度趋同:鼓励,但反对低质。今年6月,快手电商发布了使用AIGC能力直播的倡议公告,鼓励商家/达人和老铁们进行良好互动,但明确了流量不会倾斜,避免低质内容。来到9 月 8 日,抖音则公布了关于“发布特定内容需主动添加标识”的公告,鼓励创作者尊重事实、发布客观真实信息,同时对于特定信息,应以“内容标识”的形式提供充分的说明,降低用户的理解成本。


但事实上,创作者和用户显然更关注AI创作带来的娱乐性,“容嬷嬷喂紫薇吃香肠”“唐僧啃鸡腿、吃汉堡”“悟空掏手枪”“尔康失态”等无脑爆改短视频风靡全网,以脑洞、爆笑等元素获得了粉丝的关注,抖音上,相关话题“当AI扩图卷土重来”登上热榜,截至目前共有3.9亿次播放。



对于抖音来说,这是个不错的开始,内容拓展后,粉丝粘性提高、收入提升、制作成本下降,都是AI视频大模型带来的优势,当然抖音更大的期待,还包括规避版权费风险。


两年前,爱奇艺、优酷、腾讯视频等长视频平台,70多家影视机构、数百名艺人先后两次公开发布“联合声明”,呼吁短视频平台和公众账号生产运营者尊重原创、保护版权,强调未经授权,不得使用影视作品侵权创作,这份声明中明确指出将对侵权行为依法追责。矛头直指抖音等短视频巨头。随后,抖音与腾讯更是因《云南虫谷》和《亮剑》等作品,互告对方侵权。


和解发生在短剧爆火后,长短视频巨头为了进军新市场握手言和,互相借助优势成为新趋势。但从长远看,抖音短视频二创还依赖原创视频素材,风险并未化解,而随着AIGC内容的开启,抖音在版权侧至少可以安心落地,二创的素材库也更加丰富安全,确实是抖音乐得所见。


从这个角度看,字节的视频大模型确实任重而道远了。


参考资料:


1、《快手盖坤:可灵AI已生成视频超1600万条,用户超160万人 》,新京报

2、《抖音快手激战人工智能大模型》,亿邦动力

3、《豆包进击,字节版Sora“虽迟但到” 火山引擎总裁谭待:一落地就开始考虑商业化》,每日经济新闻

4、《AI生成视频,究竟有多癫狂?》,无限智能


文章来源“科技新知”,作者“萧维”


关键词: AI , AI视频 , Sora , 快手AI , 字节AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales