内容产业首当其冲。
5月中旬,OpenAI、谷歌和字节跳动三大科技巨头相继公布AI业务最新进展,“画风”却差异巨大。
OpenAI的发布会仅仅持续26分钟,CEO奥特曼甚至没有露面,却拿出了效果震撼的语音大模型GPT-4o(“o”代表着全能)。
现场演示中,GPT-4o听说读写样样俱佳,响应速度几乎与真人无异,还带有情绪和语气变化。它能够随时加入人类对话,被打断后也能马上转入新的语境;注意到用户过于急促的呼吸时,还会引导用户放缓呼吸、放松下来。与呆板的苹果Siri相比,GPT-4o作为AI语音助手的表现近乎完美。
一天后,谷歌在长达两小时的发布会上推出一系列新品,包括升级后的Gemimi大模型,以及文生视频模型Veo、文生图模型Imagen3、AI语音助手Astra等。
尽管这场发布会的关注度远不如GPT-4o,但仍有不少亮点:Veo能够根据文字描述生成超过1分钟的视频,打破了Sora此前保持的纪录。Astra效果惊艳,可以实时交互、延迟极低;一个令人印象深刻的演示是,手机摄像头快速扫过场景后,用户询问“眼镜放在哪儿”,Astra马上回答“在红苹果的旁边”。
又过了几个小时,字节旗下的火山引擎举行发布会,推出豆包大模型家族,并展示一系列AI应用。但这场发布会的最大记忆点,不是“技术”,而是“价格”。
根据官方介绍,豆包大模型的定价显著低于行业水平。以豆包通用模型pro-32k版为例,模型推理输入价格为0.0008元/千Tokens,而市面上同规格模型的定价约0.12元/千Tokens,是豆包的150倍。换言之,豆包把价格打下来了99%以上。
发布会上,为了证明到底有多便宜,火山引擎方面做了个类比:一元钱就能买到豆包主力模型的125万Tokens,大约200万个汉字,相当于三本《三国演义》。
火山引擎总裁谭待在接受媒体采访时表示,今年是大模型提升应用之年,需要将AI相关生态建立起来。但是创新的风险成本很高,只有把试错成本降低,才能实现更大范围的普及,市场的呼声就是字节跳动选择降低成本的核心原因。
OpenAI和谷歌的发布会都或多或少提到了价格,但都没有作为重点进行解读。反而是技术和产品落在后面的字节,把价格放在了更突出的位置。
字节是受这一波AI浪潮影响最大的互联网大公司。从ChatGPT、Midjourney到Sora,再到如今GPT-4o,生成式AI大模型及其应用不断涌现,都指向了互联网内容的个性化再组织和去中心化分发,用户获取信息、生产内容的方式将迎来划时代的革命。
这一趋势的刀锋,恰好指向了字节的腹地。
面对AI新浪潮,字节只有投身其中,并成为领先者之一,才能守住并扩张帝国疆域。
然而,在大举进军AI的过程中,字节的创新魔力仿佛消失了。尽管豆包大模型及其他AI应用的用户数据表现不错,但字节一直没能拿出像GPT-4o这样,足以震撼整个行业的新技术、新产品。
不久前,抖音前CEO张楠挂帅的剪映推出文生视频产品“即梦”,只能生成3秒视频,与可生成60秒视频的Sora相比差距巨大,甚至赶不上国产视频大模型Vidu的16秒。
而在5月15日的发布会上,火山引擎发布的新产品不少,但在GPT-4o、Astra等产品的映衬下,显得有些“普通”;反而是号称比行业水平便宜99%的定价,成为圈内热门话题。
主打“便宜”,无法让字节在AI时代浪潮中立于不败之地,也让这家科技巨头的想象空间受到限制。张一鸣和字节感受到AI“降维打击”的锋芒,却未能重新建立技术优势,反而打出低价牌,其处境可能比喊出“AI电商”的马云更加危机四伏。
字节之所以能够与阿里、腾讯比肩而立,根本原因是通过技术创新,建立了跨越互联网周期的竞争壁垒。
十多年前,字节依靠横空出世的推荐算法,抓住互联网内容分发从搜索引擎转向机器推荐的潮流,打造了今日头条和抖音及其海外版TikTok两张王牌。
2012年诞生的今日头条,以推荐算法重塑互联网图文信息分发模式。它击溃了停留在中心化+人工编辑时代的门户新闻客户端,让字节成为大公司。
2016年上线的抖音,将推荐算法引入短视频,最终在视频化浪潮的助推下,成为互联网最大的流量枢纽之一。它让字节的流量、用户规模和商业价值成倍放大,最终跻身“新BAT”。
字节的两次飞跃,都站在了技术革新的风口浪尖。但在通用人工智能风潮渐起后,字节没能及时抓住并引领机遇,反而成为被新势力挑战的对象。
大模型带来了一系列AI应用,其中佼佼者如ChatGPT、Sora等,不仅让每一个人有了批量生产优质内容的机会,也从根基上重塑人们获取内容的方式。更可怕的是,AI大模型的进化速度远超传统互联网,对于后者的颠覆也会快得多。
AI大模型落地前景广阔,各行各业都有可能受到影响。首当其冲的,正是如今掌握着互联网内容生产和分发权杖的字节。
过去十余年间,今日头条、抖音、TikTok等平台的内容生态几经迭代,创作者社群不断扩大,平台提供的辅助工具和教程指引也愈发完备,但仍然以人工创作为基本模式。而在分化环节,平台主导的中心化流量分发早已打磨成熟,用户无需输入任何内容,即可被推荐算法精准“投喂”。
以OpenAI为代表的AI挑战者们,正在通过ChatGPT、Sora等AI应用,打破字节固化多年的内容生产与消费闭环。当然,这些应用尚不足以威胁抖音之类的巨无霸;但它们的惊艳表现和超快进化速度,依然展现了重新定义互联网内容生态的潜力。
相比之下,其他互联网大公司同样面临AI挑战,但形势并不迫切。
以电商为例,阿里、京东等公司均已宣布入局AI大模型。京东不久前推出了以刘强东为蓝本的“采销AI数字人”;阿里更是宣布,未来所有产品都会接入自家的通义千问大模型,进行全面改造。
但显而易见,阿里和京东的最大对手不是AI公司,而是同属电商赛道的拼多多。在可预见的未来,AI大模型领域的新技术、新产品,很难直接对电商巨头的核心业务产生冲击,反而会给阿里云等公司带来生意机会。
去年11月,马云在阿里内网发文称,“AI电商时代刚刚开始”。如今半年过去,AI技术在阿里内外有了不少落地应用,但马云口中的“AI电商”究竟为何物,尚未有统一定义。这也意味着,阿里暂时看不到以AI为核心基础能力的挑战者。
相比之下,生成式AI本身就是对字节商业模式的挑战,新的玩家随时有可能一飞冲天。错失新浪潮的张一鸣,处境比马云要危险得多。
在新的威胁面前,字节没有展现出当年做今日头条和抖音的洞察力,反应速度也慢得多。
正如梁汝波所言,行业内做得比较好的大模型创业公司,均创立于2018~2021年。OpenAI更是早在2015年底即已入局,历经八年才有了今天的爆发。
相比之下,字节公司层面的半年度技术回顾,直到2023年才开始考虑GPT。字节参战AI大模型,比行业领军者晚了两年以上。
字节追赶AI浪潮,失去了以技术和产品建立壁垒的先机。它只能退而求其次,尽快多点开花,拿出当年“APP工厂”的气势,充当“AI大模型工厂”,并以低价取胜。
截至目前,字节AI矩阵已经大体成型。
最新发布的豆包大模型家族除了两款通用模型,还有面向角色扮演、语音识别、语音合成、文生图等不同场景的模型;应用方面,字节先后推出十多款产品,如AI对话助手豆包、AI机器人开发平台扣子、二次元AI聊天机器人话炉、AI教育软件Gauth等,剪映、飞书等也添加了AI功能。
单看用户指标,字节AI并不算差。
根据第三方数据,今年2~3月,豆包的DAU(日活跃用户)一度超越文心一言,成为市场第一,目前全球DAU约为300万;扣子的DAU也达到了百万量级;在海外市场征战多年的Gauth,近期增添AI功能后,DAU峰值突破200万。
另据字节产品和战略副总裁朱骏透露,豆包上已有超过800万个智能体被创建,月活跃用户达2600万。
但字节尚未拿出一款令人印象深刻的AI产品。无论是知名度还是行业影响力,豆包等产品尽管有字节背书,仍难以与ChatGPT、GPT 4-o、Sora等相提并论,甚至比不上国内AI赛道的“当红炸子鸡”Kimi。
本次火山引擎发布会,字节AI围绕价格做文章。谭待表示,之所以大降价,“一个是我们能够做到,第二是我们需要这么做。”他举例道,在模型工程上,以前使用单机推理方法,如今豆包采用分布式推理,不同的AI计算需求可以用底层的不同芯片来处理,从而让算力效率大幅提升。
降低AI大模型的全系统成本,固然是有必要、有价值的;但在整个行业狂飙突进的时刻,将精力放在降低成本而非技术突破上,难免有重心偏移之感。
作为一项革命性技术,AI大模型仍处于爆发初期的“好东西不怕贵”阶段,占领技术制高点才是关键;此前各大公司对于高性能芯片的追逐,也反映了这一逻辑。毕竟,只有底层技术不断迭代,产品价格才能断崖式下跌,而非以低价产品倒推技术进步。
这也意味着,字节为AI产品构建的价格优势,很可能被迅速突破。例如,今年4月,百度文心大模型推理性能提升105倍,推理成本降到原来的1%。客户原来一天调用1万次,同样成本现在可以调用100万次。
OpenAI CEO奥特曼也持有类似观点。不久前,他在一次访谈中表示,许多人的创业或研究方向是补全现有AI的缺陷,本质上是在赌AI不会变得更好。然而,未来的GPT-5、6会让这些努力变得没有意义。
在不少垂直领域,奥特曼的警告已成为现实:快速迭代的GPT,导致大批专注于应用层的创业公司倒闭出局。
相比之下,字节具备AI大模型的全栈能力,GPT的进化不会带来根本冲击;但倘若它停留在降本增效、拉低价格的层面,迟迟无法取得关键技术突破,那么即便未来推出更多产品,字节也很难成为AI浪潮的头部玩家。
放眼全球,字节并不是唯一面临AI挑战的互联网大公司。
美国互联网行业中,搜索引擎鼻祖谷歌在ChatGPT横空出世后“压力山大”,折戟元宇宙的社交网络巨头Meta也感受到了威胁。与字节类似,他们同样在AI大模型时代落后;不同的是,谷歌等公司投入AI的决心更大,成果也更醒目。
以谷歌为例,在ChatGPT刚刚上线时,谷歌匆忙上线AI聊天机器人Bard,却因为屡屡“智障”而遭到群嘲。但经过近一年的打磨后,去年12月上线的谷歌大模型Gemini已经超越了GPT-4,进步速度之快令人咋舌。
几天前的谷歌I/O大会上,Gemini 1.5 Pro版本亮相,窗口能力扩充至200万Tokens。此外,谷歌还推出了文生图模型Imagen 3、文生视频模型Veo、AI助理Astra等新品,其演示效果已经与OpenAI的同类产品不相上下,某些指标甚至略胜一筹。
除了谷歌,特斯拉、亚马逊等受AI大模型威胁较小的公司,同样纷纷加大投入。
去年7月,马斯克成立了人工智能创业公司xAI。近日有消息称,xAI正在与甲骨文公司谈判,计划花费100亿美元租用AI服务器,以加速追赶OpenAI、谷歌等领先企业。倘若交易达成,xAI将成为甲骨文最大客户之一。
相比之下,字节AI看上去声势浩大、产品众多,但一直没能拿出震撼全行业的产品和技术,却在发布会上聚焦于低价。
字节曾是一家技术创新驱动的公司,依靠推荐算法打破了中国互联网的旧格局,在吸引数亿用户的同时,生长出迥异于传统互联网公司的商业模式,最终成为互联网视频化时代的最大赢家。
如今,随着AI大模型技术的诞生和扩散,互联网新时代的大门正在徐徐打开。字节2023年之后大举布局AI,但其主要精力仍然在榨干上个时代的最后红利上,也就是基于人工生成内容生态,发展广告、营销、电商、本地生活等业务。
整体来看,字节近几年仍然保持营收和利润规模较快增长,表明旧时代的蛋糕尚有切割空间。但不时传出的“广告停止增长”传闻,也折射出字节并非每一块业务都在持续高歌猛进。开辟新的泉眼,依然是高光之下的字节的待解难题。
AI大模型,当属最值得期待的泉眼之一。但字节当前的AI战略,并没有显露过人之处,或许不足以带领这家巨型公司穿越周期,拿到AI互联网时代的船票。
过去十多年,字节以推荐算法击溃了门户网站、视频平台,技术领先的降维打击威力惊人;如今,AI大模型的技术优势并不在字节手中;OpenAI等新玩家羽翼渐丰后,字节精心构筑的算法壁垒也有可能快速归零。
张一鸣要想带领字节破局,恐怕首先要破除“挤出柠檬最后一滴水”的存量竞争哲学,并以更大决心和资源押注AI大模型的未来。正如马云多年前竭力培育云业务,最终让阿里云成长为今日阿里的关键筹码,张一鸣也需要跳脱眼下的纷扰和“战报”,拿出当年的敏锐洞察力和决断力,为字节的下一个十年廓清轮廓、辨明路径。
文章来源于“字母榜”,作者“彦飞”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales