别着急,比赛才刚刚开始
从短视频到剪辑工具,从电商到外卖,再到如今的AIGC大模型,快手和字节的竞争从来就没有停止过。
通用大模型方面,快手有快意,字节有豆包;AI图片创作快手有可图,字节有星绘;视频生成大模型,快手有可灵,字节用即梦相对,此外在AI音乐、剪辑工具、社交产品、特效制作等多个领域,快手和字节都有相应的AIGC产品形成竞对。
制表:洞见新研社
短视频的主航道上,快手和字节打了个半斤八两,如今转向到AIGC的未来之争,两方的一举一动同样颇具关注。
公开资料显示,为了跟上席卷全球的大模型行业潮流,字节跳动去年抽调了内部的高层管理和业务骨干组建了新的AI部门Flow。
前TikTok产品技术负责人朱文佳任Flow的业务负责人、字节跳动产品和战略副总裁朱骏任产品负责人,字节跳动技术副总裁洪定坤担任技术负责人,三方协同合作推进AI进程。
基础大模型方面,字节跳动去年8月上线了首个大语言模型“豆包”及多模态大模型BuboGPT。此外,字节跳动基础模型在语言和图像两种模态上均进行了布局,两个团队均向TikTok技术负责人朱文佳汇报。
AI应用层方面,Flow目前已推出三款AI产品,豆包、扣子和Cici。
其中,豆包为一款类GPT应用,可以完成问答、文本生成、语言翻译等多种任务,还可以根据用户需求和上下文进行自适应问答,提供个性化服务。
扣子是一站式AI Bot开发平台,无论用户是否有编程基础,都可以在扣子平台上快速搭建基于AI模型的各类问答Bot,可完成解决简单的问答,并处理复杂逻辑的对话。
为了加强AI战略,字节的其他部门也没闲着,包括剪映、巨量引擎、抖音主端、抖音电商、飞书等部门,都在加码各自的AI业务,成果陆续落地。
快手同样是在去年年初启动了新AI战略。
2023年Q3财报会议上,快手CEO程一笑介绍,快手的语言大模型-快意130亿和660亿大模型已达到行业内同等规模领先水平,同时也已经开始超千亿规模语言大模型以及多模态大模型的研发。
有媒体报道称,快手AI主要由快手AI技术团队(此前的快手Y-tech部门)负责。
具体的业务布局则是建立了以快意大模型为基础的AI服务平台,面向市场提供AI技术服务,产品服务涵盖计算机视觉、计算机图形学、自然语言处理、音频技术、视频技术、知识图谱、机器学习、AR/VR/MR、多模态等核心技术领域。
今年2月,继ChatGPT之后,OpenAI公布的Sora AI视频生成模型再度引爆全网。
然而从5月份开始,国内达到类Sora级别的AI视频模型技术陆续公布,快手也在6月6日推出AI视频生成模型可灵,并进行邀测,由于可灵的生成效果直逼Sora,引发行业关注。
猎豹移动董事长傅盛在体验过快手可灵后给与了高度评价,“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的”。
无论在AIGC中的投入有多少,产品的宣传有多炫目,其最终的目的还是要让这项产品用起来,特别要让普通人用起来,因而从这一视角来看,大模型竞争的本质,是终端心智的争夺。
在这方面,字节的豆包显示出非常强的竞争力。
根据QuestMobile的统计数据,截至今年3月,豆包月活用户已达到2328.2万,排在豆包身后的文心一言、天工、讯飞星火、Kimi智能助手的月活用户数分别为1466.1万、966.1万、620.4万、589.7万。
而豆包官方数据显示,其移动和桌面双端月活跃用户已经超过 2600 万。同时,这些用户还共同创造了800多万个智能体。
基于豆包大模型,字节跳动还打造了AI应用开发平台“扣子”,互动娱乐应用“猫箱”,AI分身创作应用“星绘”等一系列产品。
在字节跳动内部,抖音、番茄小说、飞书、巨量引擎等50多个业务接入到豆包大模型,用来提升效率和优化产品体验。
由内及外,OPPO小布助手、荣耀MagicBook的YOYO助理、华硕笔记本电脑豆叮AI助手、极氪汽车的座舱大模型等均已接入字节的大模型服务。
可以注意到,从C端的APP用户,到B端的千行百业,豆包不仅使用量大,应用场景也非常丰富。据悉,目前豆包日均处理文本1200亿Tokens,生成 3000 万张图片。
不难看出,字节凭借着原本业务的用户基础,采用了打造平台型产品,围绕平台型产品建立其他关联产品生态的策略,这一幕与字节早期“APP工厂“时代极为相似。
快手的快意大模型具备与豆包相似的能力,只是快意目前更多应用在快手内部,主要为短视频、直播、广告、电商等业务服务。
快手官方公布的数据称,半年来,有近2万商家在快手平台借助大模型能力实现智能化经营,获得不菲回报。相比今年1月,今年6月的AIGC月活跃客户数增长了8倍,月GMV规模提升了64倍,平台AIGC广告收入规模提升了12倍。
快意之外,可灵是快手的另外一个心智争夺杀手锏。
其实不光是傅盛,很多科技博主、AI创作者们对可灵的表现也是大为赞赏。
AI创作者娜娜在体验过可灵后认为,人物一致性是可灵的一大亮点,并且可灵更加擅长真实画风,表现比较好的是美女、动物、吃东西等画面的生成。
与另外两个国外视频生成软件Runway和Luma进行对比,可灵在文生视频之外,比Runway多了一个图生视频的功能,比Luma的生成结果更加稳定。
也正是因为表现出色,引来了众多用户参与到可灵内测的申请之中,根据快手官方公布的数据显示,早在7月份时就已经有超过50万的用户申请可灵的内测资格,视频生成数量达700万。
不难看出,可灵的产品在技术上有突破,快手在视频生成赛道的布局也是极具策略的,用猎豹傅盛的话来说,“可灵的成功,更加证明了,Sora并不是一项技术性突破,而是产品型图片”。
大模型的业务布局,快手和字节各有侧重,然而大模型的竞争最终的落脚点还是在商业化上,不光要用户爱用,还要用户愿意花钱来用。
在这方面,快手和字节也呈现出不同的思考方向。
我们先来看字节对豆包的定位,从产品形态来看,豆包是一个综合性的AI智能体平台,这也就意味着字节对豆包有着更大的野心,即不光光是为原有业务赋能,更希望豆包能够成为一个新的营收增长点。
因而在应用设计上,字节着重解决了豆包的“拟人化”“离用户更近”和“个性化”的问题,为了让更多的人体验到豆包,除了基础的免费服务之外,字节还着手大幅降低豆包的收费标准。
根据字节官方公布的数据,豆包主力模型 Pro-32k 版本模型推理输入价格为0.0008元/千Tokens,0.8厘就能处理 1500 多个汉字,比行业同等模型便宜99.3%;128k型号价格为0.005元/千Tokens,比行业价格低95.8%。
豆包的价格之所以定的这么低,字节认为有两点,一是需要做到这么低,另一个是自己能够做到这么低。
前者很好理解,只有足够低的价格,才会降低企业用户的试错成本,增强企业用户的信心,尝试大模型。
后者则是出于对行业趋势和自身能力的一种判断。
零一万物CEO李开复曾表示,大模型推理成本每年降低十倍,这在过去两年已经发生,优化得好更是可以降低二三十倍。
字节则通过模型结构优化、分布式推理、混合调度等举措,极大压低了大模型的推理成本,模型的调用量越大,成本的优化空间也就越大。
价格是豆包的留给行业最醒目的标签,更重要的是,通过一系列操作,字节打了一个样,为行业创作了一个大模型商业运营的范式。
相比之下,快手AIGC业务的商业化进程就要慢一些,如上文所述,快意更多为快手的自身业务赋能,可灵的想象空间虽大,但快手目前对可灵无明确的商业计划,也不对外提供API。
快手视觉生成与互动中心负责人万鹏飞在一次演讲中,谈到可灵的未来时曾提到,“视频创作的门槛和效果的ROI大幅度提升,视频创作者和消费者界限逐渐模糊。越来越多消费者变成创作者,对于视频创作生态的繁荣是非常有价值的。”
由此可见,不断强化自己的短视频生态,将长板持续做长也未尝不是一个较好的商业化路径,通过内部验证之后的技术产品输出,其能量往往更大。
创新工场联合创始人汪华曾做过一个统计,虽然最近大家看到很多产品在大量推广,用户量也在迅速增长,但是把所有应用加在一起,日活也不过就是1000万,中国有12亿网民;而美国3亿人口就有大几千万的日活,相比之下还有很大的差距。
李彦宏也呼吁行业不要卷模型,要去卷应用,没有应用,光有一个基础模型,不管是开源还是闭源都一文不值。
这也是说,虽然AI未来已来,但是大模型的产品化还远远没有到来,用AI赚钱的时代才刚刚开始。
投身于时代潮流之中,快手有机会,字节有机会,你和我也有机会。
文章来源“洞见新研社”,作者“关注大模型的”
【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。
项目地址:https://github.com/gcui-art/suno-api
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales