从目前国内LLM模型公司八卦谈起

7126点击 2024-09-05 22:15

前言

我个人不是喜欢打听这些公司八卦的人，前些年移动互联网时代就已经有太多这样的小道消息，但最终都没有没什么用。重要的信息迟早会变成公开，最多晚几个月而已，又不是要考虑抢时间窗口投这些公司，花时间去探究ROI不高。

今天看到两个评论六小虎的消息，信息都甩脸上了，内容也有点意思。就简单通过猜测补全一些信息，整理一下供后续讨论。

所有信息都基于别人爆料和公开信息再加一些猜测，不少猜测来源于群友贡献。

爆料1

Orange AI 的 8 月小结中提到：

大模型6小虎的情况，略显悲观：

小虎一号，广进计划后，人数降到500人，扩张结束，轻装上阵，冲刺上市。

小虎二号，预训练不做了，C端也不做了，B端也不赚钱，暂时迷茫。

小虎三号，聚焦重点业务，锁 HC 了。

小虎四号，继续保持静默状态。

小虎五号，从繁华世界进入静默状态。

小虎六号，继续扩张，逆势而行，至少两个朋友拿到了他们的 offer。

橘子汽水铺

总结一下群里的讨论结果，大概是：

一号是智谱，人员规模最大，也是最接近于能上市的。
二号是零一万物，近期算法联创跑路，又传言说产品团队也跑路了，大概符合。
三号是百川，百川做医疗的执念很深，在这几家里也算是难得有能说得清楚的“重点”业务了。
四号是Minimax，排除法，Minimax在过去半年确实很低调了。
五号是月之暗面，繁华世界，还转入静默，也只有moonshot符合了。
六号是阶跃星辰，从行业人员流动来看确实是在扩张。

（以上仅为猜测，如有张冠李戴，请在评论区指出。）

爆料2

AI暴躁吐槽君

https://web.okjike.com/originalPost/66d51fa1b00a43e91092d49e

从目前国内LLM模型公司八卦谈起

[1] 一个产品团队内斗没人决策;

[2] 一个海外惨败全砍了，国内产品火了一波但被字节封死;

[3] 一个海外产品还行，然后产品团队直接出走自己创业去了;

[4] 一个根本不敢做 2c产品靠别人来装饰自己生态的，

[5] 一个挖了一堆字节腾讯的人来抄别人尾气的，

[6] 还有一个我懒得讲。

AI暴躁吐槽君

这个要难猜一些，总结一下群里的讨论结果，大概是：

[1]是Minimax，要说产品团队能内斗的规模，大概也没几个符合
[2]是月之暗面，海外做了Ohai、Noisee，kimi国内火了一波。月之暗面也要出海，Kimi上线两款海外产品
[3]是零一万物，还是与前面提到的产品团队流失有关。
[4]是智谱，在2C产品上除了chatbot未见其他。
[5]是阶跃
[6]是百川，确实搞医疗也没啥能在2C讲的。

猜这个需要的八卦信息更多，我自己对此更不确定，仅供参考。

不得不说这个暴躁吐槽君的发言真的很符合它的名字……

关于其他玩家

六小虎只是投资圈的叫法，实际上国内活跃的还有几个：

深度求索DeepSeek
商汤
面壁（还在搞端侧模型）

DeepSeek还没有看到产品化想法，目前还比较专心搞模型和尝试模型2B。

商汤动作相对于其他家是有些慢的，在很多人视野之外，但它有一些模型还是没那么差的。

面壁已经基本算放弃了10B以上模型，专心搞端侧规模的模型了，这个路其实不算错，端侧没有自研能力的厂家是需要跟他合作的。

非创业公司还有：

阿里巴巴 Qwen系列模型
字节 Doubao系列模型
百度 ERNIE系列模型
腾讯 hunyuan系列模型
讯飞星火系列模型

个人评论

总体

从国内来看，基座模型的创业公司已经一片萧条，即使不看上述爆料，大家也能感觉一二。也就是阶跃相对后发，目前投入还大一些。

而大厂的模型在上一轮中其实算相对落后的：

百度在去年文心4之后就再没大的动作（其实最近开始推出ERNIE-4.0-Turbo了，性价比还可以）
阿里的Qwen开源和闭源就一直是两条线，闭源落后于开源，不过最近已经在融合了，qwen-plus-0806明显就是融合两边能力之后的代表。
字节在5月才把模型改名为Doubao系列，正式发布一版本，目前主要还是卡位高性价比模型，最近也有新闻爆料内部正在大模型方面重组。
腾讯的LLM一直给人以掉队的感觉，但其实过去半年进步还是明显的，有兴趣的同学可以试试hunyuan-pro
（不算大厂的）讯飞已经显露疲态

创业公司大多原地踏步，而2024下半年大厂的大模型其实是难得的追赶期，闭源追赶国内第一梯队水平，重新调整和整合资源。

海外与主力模型价格战

切换到海外来看，也并不算太乐观：

OpenAI发布缓慢，而且最近还公开表明会受到美国安全的监管，未来发布只会更慢。
Google Gemini最近很活跃，小版本不断，并且在自己的long context方面已经领先半年了，模型能力也算追上gpt4o。
Anthropic的claude-3.5-sonnet已经成功占领的全球最好编程模型的心智生态位，但其他方面的综合能力也未显著超过gpt4o级别。不知道claude-3.5-opus能给我们什么样的答卷，这可能是全球唯一计划发布的最大规模、最高质量的LLM模型了。

海外目前第一梯队也是几乎原地踏步（除了claude-3.5-sonnet），剩下大家一方面在补全feature上的短板，一方面开始了主力模型的性价比战争。

我目前觉得全球范围内输入token价格在$5/M token以上的模型都不值得用了，换算到国内大概是35RMB左右。

国内可以预见也会开始主力模型的性价比战争，目前智谱已经在紧跟gpt4o的降价，把最强模型降价50%到50RMB，百度的ERNIE-4.0-Turbo（30RMB）也是歪打正着。但这过程中应该也会有些玩家跟不上而掉队。

从目前国内LLM模型公司八卦谈起

转型时期

海外没有支撑信心的头部玩家，内部也没有看到很有希望的技术方向，产品方向则不好不坏吧，没有Super App，但也不是一无是处。

越来越多的团队开始没有足够的信念支持去继续烧钱给炼丹人员的试错买单了，其实暂时放弃搞超GPT4规模的模型我觉得未必是错的。毕竟国内即使是大模型公司，融到的钱也没有太多发子弹，我也不觉得简单堆模型规模就是短期最好的路线。

不过在这个过程中之前狂奔时留下的问题却开始显露：

现在的人员开始流失，之前的高期望高投入无法维持，核心员工自己没有太多期望，也很难满足公司后续的产出要求。
基于模型能力增强的共识崩溃，然后大家思路各不相同，如果不能靠钱和公司创始人的能力把大家维持在一个组织内，就会出现基于共识崩溃带来的团队人员重组。
缓慢的大厂抓住时机接收有经验的人，并能够追上先发的创业团队。
后续不是简单靠模型规模、炼丹技巧、训练infra来scale，需要的核心能力正在从模型往规模化的合成数据和其他方面转移，公司的主动换血在哪里都不是一个简单的事，转型期经常结果是被动换血。

虽然说创业公司面对了新一轮危机，但我觉得这也是让大家能够重新思考自己的战略方向的时间。今天正好听到《乱翻书》的播客：《别拿这轮AI创业跟移动互联网比，目前还不配》

https://www.xiaoyuzhoufm.com/episode/66b0e3b533ddcbb53c7e0b88

里面就提到这一轮AI模型公司这么快就出现定位非常一样其实是很有问题的，现在这一个共识目标在崩溃，可以让大家出现分化。

如何解决之前融资过高给后续战略带来的掣肘，以及后面如何能够低成本尝试多种方向成为创始人要面对的问题了。对于这些公司来讲，最差的未来就是内部没光环的员工都跑出去搞低成本创业，而历史研发的债务都留在公司壳子内。

巨树倒下之后，原地才能孵化出森林，对LLM应用生态来说，这很可能是件好事。

即使是现在出现人员已经流失殆尽的大模型公司壳子，我也不觉得它就已经毫无价值。只要现金还没烧完，那么制约公司可能性的就只有创始人的视野和战略。

《只有偏执狂才能生存》中有个著名的故事：安迪·格罗夫（Andy Grove）和戈登·摩尔（Gordon Moore）在英特尔面临危机时进行的一次假设讨论，如果自己都已经被解雇，新来的CEO会做什么？

现在的情况也大体类似，搞清楚现状，抛弃过去的惯性，换一个别人的视角有时候答案并不难想到。不过这确实很难，没有被逼迫到一定程度人是很难转变的。

文章来源于“孔某人的低维认知”，作者“孔某人”

从目前国内LLM模型公司八卦谈起

关键词: AI , AI公司 , LLM , 人工智能