ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
大模型走到AI战略分岔口,字节们面临偏航危机
2483点击    2024-10-25 09:27

不少AI企业追求“大而全”,面临商业上的挑战和市场规模的限制。尽管深度推理具有长远价值,但敢于投入和坚持的企业为数不多。


最近,字节在AI方面又搞了个大新闻。


一个字节的实习生,因为对团队资源分配不满,用恶意代码把模型训练过程给投了“毒”,字节这边损失不小。


尽管“资源分配问题”这个说法还没完全坐实,但既然一个实习生,都能随便对训练中的模型下毒手了,那至少说明,字节对文本模型的训练方面重视度不够,因此才会出现“把关不严”的情况。


与文本大模型相比,字节在视频方向上可谓打得火热,推出了两款最新的视频模型PixelDance1和Seaweed2。



这种资源上的倾斜,反映的是国内大厂在当下LLM发展岔路上的关键分歧:算力资源有限的情况下,未来的大模型到底是要往视频方向冲,还是继续在文本上发力?


这样的分歧,在OpenAI推出了能搞深度推理的o1模型后,显得愈发棘手和关键。


01 AI视频硬伤,遭遇市场冷眼


在这样的关键抉择上,百度CEO李彦宏前两天放了个大招,直接撂话说“百度不碰Sora类的视频生成”。


原因就在于,在百度看来,现在的视频大模型还不成气候,离能真正进行商用还早着呢。用李彦宏的话来说,“10年、20年都可能拿不到业务收益”。


而这样的判断,也并非空穴来风。


据SimilarWeb统计,位居全球前列的AI视频生成企业Luma AI网站在9月的总访问量仅为1181万次,环比下跌38.49%。



同样地,身为AI视频生成领域的“老大哥”的Runway在9月流量仅755.8万次,不及ChatGPT的1/400;


用户不买账,首先得从产品上找原因。


以国内AI视频生成模型为例,尽管从今年2月Sora出现后,国内的大厂如快手、字节、智谱清言等,都推出了各自的视频模型,但平心而论,目前所有的视频模型都存在两个难以掩盖的短板:


其一,是难以做到成本、质量二者兼具。


图源:可灵


以快手的可灵为例,虽然其生成的效果,在国内视频模型中已算翘楚,但从成本上来说,其生成一个5秒的视频,需消耗10个灵感值(1灵感值=1元),生成时间大约为2~5分钟。


按照这样的成本估算,如果要生成一分钟的短视频,用户至少要花费十余元,等上半个小时左右。


而且,这还没算上由于AI理解不准确,需要重新生成的情况,实际成本只会更高。


图源:可灵


相较之下,身为国内“AI六小虎”之一的智谱清言,虽然开放了可免费使用的视频模型“清影”,但其生成效果实在不敢恭维,其生成的画面有一股浓浓的“90年代3D动画”的感觉。


况且,虽然免费了,但其生成时长还是没打下来,用户生成一个5秒的片段,照样要等3~5分钟。


图源:智谱清言


AI视频生成的另一大短板,便是那股始终挥之不去的“AI”味。


这几乎是所有视频模型的通病。


无论人物或物体的外观,看起来多么真实、多么形似,可观众总觉得哪儿不对劲儿。有一种活生生的“恐怖谷”效应,看着就觉得浑身不自在。


说白了,这就是一种技术不到位的表现。


因为大多数AI视频生成算法,背后虽然在很努力地模仿现实世界的物理规则,模仿人和动物的运动方式,但仍无法完全理解数据背后的语义和情感。因此生成的内容,在某些细节上显得缺乏“灵性”。


图源:可灵


而这明显的“AI”味,也成了当下大众对AI作品怀有偏见的重要原因。


由于上述短板的存在,目前火爆于各大视频平台的AI视频,大都以“玩梗”“搞笑”为主,因为只有这类“不正经”的视频,才不会对生成的成本、效果有太高要求。


更悲哀的是,当下的AI视频赛道虽未大火,但早早面临“未火先卷”的情况,多家AI视频生成厂商都对功能进行密集迭代,但大多是“锦上添花”而缺乏跃进式体验升级。


以快手的可灵为例,其推出的运镜控制、高清生成、图生视频等功能,国内的各大视频生成类AI,例如智谱的清影、字节的即梦也都有。


图源:可灵


而这种同质化的、聊胜于无的功能,并未能给用户体验带来大幅度的改善。


说到底,视频生成类赛道的内卷,本质上是现在的LLM遇到瓶颈后,一种为了延续“AI故事”的无奈之举,但悲哀的是,这样的故事目前还没有一个大厂能讲好。


02 数据枯竭下,深度推理或是救星


在各种训练数据行将耗尽的当下,LLM的scaling law的神话该怎样继续?


在OpenAI 的o1模型发布后,人们意识到,这个问题的答案,就是强化学习。


对此,月之暗面的CEO杨植麟分析道:决定这一代AI技术的上限,核心是文本模型能力的上限。


从技术上来看,杨植麟此言非虚。


因为即使在多模态任务中,文本层面的理解和推理也是必不可少的。以Sora为例,其训练数据包含了大量“视频-文本对”,每个视频片段都有对应的详细文本描述,这种配对方式,让模型能够建立文本语义和视觉表现之间的映射。


同时,倘若视频模型要想取得更大进展,例如发展出完整的叙事结构,就要求文本模型有执行复杂逻辑推理的能力。



如果文本模型无法规划复杂叙事,视频模型也难以突破这个上限。


因此,LLM未来的方向实际上已十分明了:文本模型决定了多模态的上限,而深度推理又决定了当前文本模型的上限。


正因如此,在o1推出后,国内的诸多大厂如字节、智谱清言、月之暗面等,都纷纷在自家的大模型中开通了“深度搜索”功能,这算是深度推理功能的联网版本。


但从实际表现来看,并非所有厂商都在这方面表现得尽如人意。


在这里,我们以一个较为考验深度推理和分析能力的问题,来对字节、智谱清言、月之暗面各自的大模型进行一番对比。


这个问题是:分析近三年全球智能手机市场的发展趋势,包括各大品牌的市占率变化、技术创新,以及消费者偏好的变化。


图源:豆包


首先测评的,是字节的豆包大模型。


可以看到,虽然在整体的水准上,确实有一些切中要害的关键点,但在进行回答时,整体的内容、结构显得十分臃肿、凌乱,并没有做太多结构化、精细化的处理,使用户在阅读时,仍感到很大的阅读负担和压力。


图源:智谱清言


接下来测评的,是智谱清言的智谱AI。


可以看到,与豆包相比,智谱AI在进行深度推理时,结构明显比豆包更清晰、更有条理,且针对苹果、三星、vivo等不同的品牌,具体列出了不同的市场表现、市场份额。


但从整体上来看,每一部分的总结与分析,仍显得过于简略。


图源:KIMI


最后登场的,是月之暗面的kimi。


在开启深度搜索功能后,Kimi在信息的分析、总结上,表现出了更加细致、深入的特点,不仅以不同的年份,详细展示了不同品牌在市场中的份额变化,以凸显趋势,且在对技术创新方面进行分析时,十分具体、细致地展示了不同年份中,不同品牌推出的具体技术。


综合来看,Kimi在进行复杂问题分析时,其推理的深度、精细度,要显著优于豆包、智谱AI。


由此可见,目前在“深度推理”这一颇为考验LLM“内功”的分水岭上,国内厂商已经显示出了显著的差距。


03 追求大而全,陷入战略困境


如前所述,自从OpenAI推出o1后,当下大模型的发展,已经到了一个进行战略选择的分岔口。


而在这关键的战略分叉点上,国内的部分大厂如字节,由于自身布局于短视频业务的巨大惯性,并未在深度推理方向进行深耕,只是靠着低价竞争,以及“多而不精”的庞杂功能,才硬挤上国内大模型排行榜的头部。


图源:豆包


据火山引擎总裁谭待介绍,“豆包主力模型在企业市场的定价只有0.0008元/千Tokens,比行业便宜99.3%。”


但一味地降价追求“性价比”,某种程度上透露出的是自身模型缺乏核心竞争力的表现。


与字节类似,“AI六小虎”之一的智谱清言,也走上了一条追求“大而全”的路线。简言之,目前的智谱,也成了那种“绘画、视频、搜索都要一揽子拿下”的AI企业。


图源:智谱清言


但实际上,这种“大而全”的追求,反映的是一种商业上的“困兽犹斗”。


这是因为,目前国内企业主对软件购买意愿偏低,To B端大模型给企业带来的价值仍处在割裂状态,2023年国内大模型市场规模仅有50亿元,2024年也仅增加到120亿元。


在B端市场狭窄、C端又尚未打开的情况下,任何做大模型的企业,唯有不停地融资、烧钱,横向地扩展用户,才能让自己的模型活下来。


但这种跑马圈地的逻辑,本质上仍是互联网时代的思维,这并不能真正地“救活”AI。因为与互联网不同,AI产品的边界,并不是由用户数决定,而是由实打实的技术力决定。



一个有些反直觉的现实是:与视频生成这类耀眼的、更容易令人遐想联翩的技术相比,真正能在C端带来突破的,也许是深度推理这类既难啃又不性感的技术。


原因就在于,视频生成主要服务创意表达,应用场景相对固定,用户群体、变现模式都较为单一,其价值体现在内容产出,ROI相对直观。


从本质上来说,它更像是一个效率工具,而不是一个能带来颠覆性改变的技术。


相较之下,深度推理则属于基础认知能力,可以赋能各类应用,其突破可带来各方向的普遍提升,且其能力可以迁移复用,更易于产生协同效应。


更重要的是,随着这项技术的发展,它对用户的理解会越来越深入,提供的建议会越来越个性化和精准。


这种持续学习和进化的特性,让其很难被简单的工具或服务所替代,这正是某些短命的“爆款应用”所需要吸取的教训。


可惜的是,在这条难而正确的道路上,真正敢于坚持并做出成就的企业,目前仍屈指可数。


文章来自于微信公众号“科技新知”,作者“林书”


关键词: 大模型 , AI , 字节AI , 人工智能