ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
从短视频到AIGC,快手字节重开一局
4815点击    2024-08-28 09:45

别着急,比赛才刚刚开始


从短视频到剪辑工具,从电商到外卖,再到如今的AIGC大模型,快手和字节的竞争从来就没有停止过。


通用大模型方面,快手有快意,字节有豆包;AI图片创作快手有可图,字节有星绘;视频生成大模型,快手有可灵,字节用即梦相对,此外在AI音乐、剪辑工具、社交产品、特效制作等多个领域,快手和字节都有相应的AIGC产品形成竞对。



制表:洞见新研社



短视频的主航道上,快手和字节打了个半斤八两,如今转向到AIGC的未来之争,两方的一举一动同样颇具关注。


01 针锋对麦芒


公开资料显示,为了跟上席卷全球的大模型行业潮流,字节跳动去年抽调了内部的高层管理和业务骨干组建了新的AI部门Flow。


前TikTok产品技术负责人朱文佳任Flow的业务负责人、字节跳动产品和战略副总裁朱骏任产品负责人,字节跳动技术副总裁洪定坤担任技术负责人,三方协同合作推进AI进程。


基础大模型方面,字节跳动去年8月上线了首个大语言模型“豆包”及多模态大模型BuboGPT。此外,字节跳动基础模型在语言和图像两种模态上均进行了布局,两个团队均向TikTok技术负责人朱文佳汇报。


AI应用层方面,Flow目前已推出三款AI产品,豆包、扣子和Cici。


其中,豆包为一款类GPT应用,可以完成问答、文本生成、语言翻译等多种任务,还可以根据用户需求和上下文进行自适应问答,提供个性化服务。


扣子是一站式AI Bot开发平台,无论用户是否有编程基础,都可以在扣子平台上快速搭建基于AI模型的各类问答Bot,可完成解决简单的问答,并处理复杂逻辑的对话。


为了加强AI战略,字节的其他部门也没闲着,包括剪映、巨量引擎、抖音主端、抖音电商、飞书等部门,都在加码各自的AI业务,成果陆续落地。


快手同样是在去年年初启动了新AI战略。


2023年Q3财报会议上,快手CEO程一笑介绍,快手的语言大模型-快意130亿和660亿大模型已达到行业内同等规模领先水平,同时也已经开始超千亿规模语言大模型以及多模态大模型的研发。


有媒体报道称,快手AI主要由快手AI技术团队(此前的快手Y-tech部门)负责。


具体的业务布局则是建立了以快意大模型为基础的AI服务平台,面向市场提供AI技术服务,产品服务涵盖计算机视觉、计算机图形学、自然语言处理、音频技术、视频技术、知识图谱、机器学习、AR/VR/MR、多模态等核心技术领域。


今年2月,继ChatGPT之后,OpenAI公布的Sora AI视频生成模型再度引爆全网。


然而从5月份开始,国内达到类Sora级别的AI视频模型技术陆续公布,快手也在6月6日推出AI视频生成模型可灵,并进行邀测,由于可灵的生成效果直逼Sora,引发行业关注。


猎豹移动董事长傅盛在体验过快手可灵后给与了高度评价,“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的”。


02 心智争夺战


无论在AIGC中的投入有多少,产品的宣传有多炫目,其最终的目的还是要让这项产品用起来,特别要让普通人用起来,因而从这一视角来看,大模型竞争的本质,是终端心智的争夺。


在这方面,字节的豆包显示出非常强的竞争力。


根据QuestMobile的统计数据,截至今年3月,豆包月活用户已达到2328.2万,排在豆包身后的文心一言、天工、讯飞星火、Kimi智能助手的月活用户数分别为1466.1万、966.1万、620.4万、589.7万。


而豆包官方数据显示,其移动和桌面双端月活跃用户已经超过 2600 万。同时,这些用户还共同创造了800多万个智能体。


基于豆包大模型,字节跳动还打造了AI应用开发平台“扣子”,互动娱乐应用“猫箱”,AI分身创作应用“星绘”等一系列产品。


在字节跳动内部,抖音、番茄小说、飞书、巨量引擎等50多个业务接入到豆包大模型,用来提升效率和优化产品体验。


由内及外,OPPO小布助手、荣耀MagicBook的YOYO助理、华硕笔记本电脑豆叮AI助手、极氪汽车的座舱大模型等均已接入字节的大模型服务。


可以注意到,从C端的APP用户,到B端的千行百业,豆包不仅使用量大,应用场景也非常丰富。据悉,目前豆包日均处理文本1200亿Tokens,生成 3000 万张图片。


不难看出,字节凭借着原本业务的用户基础,采用了打造平台型产品,围绕平台型产品建立其他关联产品生态的策略,这一幕与字节早期“APP工厂“时代极为相似。


快手的快意大模型具备与豆包相似的能力,只是快意目前更多应用在快手内部,主要为短视频、直播、广告、电商等业务服务。


快手官方公布的数据称,半年来,有近2万商家在快手平台借助大模型能力实现智能化经营,获得不菲回报。相比今年1月,今年6月的AIGC月活跃客户数增长了8倍,月GMV规模提升了64倍,平台AIGC广告收入规模提升了12倍。


快意之外,可灵是快手的另外一个心智争夺杀手锏。


其实不光是傅盛,很多科技博主、AI创作者们对可灵的表现也是大为赞赏。


AI创作者娜娜在体验过可灵后认为,人物一致性是可灵的一大亮点,并且可灵更加擅长真实画风,表现比较好的是美女、动物、吃东西等画面的生成。


与另外两个国外视频生成软件Runway和Luma进行对比,可灵在文生视频之外,比Runway多了一个图生视频的功能,比Luma的生成结果更加稳定。


也正是因为表现出色,引来了众多用户参与到可灵内测的申请之中,根据快手官方公布的数据显示,早在7月份时就已经有超过50万的用户申请可灵的内测资格,视频生成数量达700万。


不难看出,可灵的产品在技术上有突破,快手在视频生成赛道的布局也是极具策略的,用猎豹傅盛的话来说,“可灵的成功,更加证明了,Sora并不是一项技术性突破,而是产品型图片”。


03 决胜点在商业化


大模型的业务布局,快手和字节各有侧重,然而大模型的竞争最终的落脚点还是在商业化上,不光要用户爱用,还要用户愿意花钱来用。


在这方面,快手和字节也呈现出不同的思考方向。


我们先来看字节对豆包的定位,从产品形态来看,豆包是一个综合性的AI智能体平台,这也就意味着字节对豆包有着更大的野心,即不光光是为原有业务赋能,更希望豆包能够成为一个新的营收增长点。


因而在应用设计上,字节着重解决了豆包的“拟人化”“离用户更近”和“个性化”的问题,为了让更多的人体验到豆包,除了基础的免费服务之外,字节还着手大幅降低豆包的收费标准。


根据字节官方公布的数据,豆包主力模型 Pro-32k 版本模型推理输入价格为0.0008元/千Tokens,0.8厘就能处理 1500 多个汉字,比行业同等模型便宜99.3%;128k型号价格为0.005元/千Tokens,比行业价格低95.8%。


豆包的价格之所以定的这么低,字节认为有两点,一是需要做到这么低,另一个是自己能够做到这么低。


前者很好理解,只有足够低的价格,才会降低企业用户的试错成本,增强企业用户的信心,尝试大模型。


后者则是出于对行业趋势和自身能力的一种判断。


零一万物CEO李开复曾表示,大模型推理成本每年降低十倍,这在过去两年已经发生,优化得好更是可以降低二三十倍。


字节则通过模型结构优化、分布式推理、混合调度等举措,极大压低了大模型的推理成本,模型的调用量越大,成本的优化空间也就越大。


价格是豆包的留给行业最醒目的标签,更重要的是,通过一系列操作,字节打了一个样,为行业创作了一个大模型商业运营的范式。


相比之下,快手AIGC业务的商业化进程就要慢一些,如上文所述,快意更多为快手的自身业务赋能,可灵的想象空间虽大,但快手目前对可灵无明确的商业计划,也不对外提供API。


快手视觉生成与互动中心负责人万鹏飞在一次演讲中,谈到可灵的未来时曾提到,“视频创作的门槛和效果的ROI大幅度提升,视频创作者和消费者界限逐渐模糊。越来越多消费者变成创作者,对于视频创作生态的繁荣是非常有价值的。”


由此可见,不断强化自己的短视频生态,将长板持续做长也未尝不是一个较好的商业化路径,通过内部验证之后的技术产品输出,其能量往往更大。


04 结语


创新工场联合创始人汪华曾做过一个统计,虽然最近大家看到很多产品在大量推广,用户量也在迅速增长,但是把所有应用加在一起,日活也不过就是1000万,中国有12亿网民;而美国3亿人口就有大几千万的日活,相比之下还有很大的差距。


李彦宏也呼吁行业不要卷模型,要去卷应用,没有应用,光有一个基础模型,不管是开源还是闭源都一文不值。


这也是说,虽然AI未来已来,但是大模型的产品化还远远没有到来,用AI赚钱的时代才刚刚开始。


投身于时代潮流之中,快手有机会,字节有机会,你和我也有机会。


文章来源“洞见新研社”,作者“关注大模型的”


关键词: 字节AI , 快手AI , AI视频 , AIGC
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。

项目地址:https://github.com/gcui-art/suno-api

2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales