ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?
9078点击    2026-06-30 09:55

ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


你有没有想过一个问题:


我们平时选模型,到底有多少是因为它真的好用,又有多少是因为它便宜?


上周,ZenMux 发起了一场实验:https://zenmux.ai/blog/zenmux-token-economics。


他们把 GLM 5.2、Kimi K2.7 Code、Qwen3.7-Max、MiniMax M3、Doubao Seed 2.1 Pro 等十几个热门模型的价格,全部打到了和 DeepSeek V4 Pro/Flash 同一水平线。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


现在价格一样了,大家会选谁?


一场关于「真实选择」的实验


先说 ZenMux 为什么要做这件事。


过去几周,他们在平台上观察到一个非常明显的趋势:DeepSeek 的调用量增长极快,V4 Pro 的 Token 消耗一度逼近 Claude Opus 4.8。与此同时,GLM 5.2 等国产模型也在快速爬升。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


问题来了。这个增长,是因为模型能力确实强,还是因为价格足够低?


如果是前者,说明国产模型的能力已经真正被开发者认可。如果是后者,那一旦价格优势消失,用户会不会立刻迁移?


ZenMux 决定用最直接的方式验证这个问题:把价格变量抹平,看看剩下的东西能不能留住用户。


参与这次实验的模型名单很长,几乎覆盖了当前国内主流大模型厂商的旗舰产品:


GLM 5.2、Kimi K2.7 Code、Qwen3.7-Plus/Max、MiniMax M3、Step 3.7 Flash、Agnes-2.0-Flash、ERNIE 5.1、Ring-2.6-1T、Ling-2.6-1T/flash、Hy3 preview、MiMo-V2.5 Pro、KAT-Coder-Pro-V2、Doubao-Seed-2.1-pro/mini,全部按照 DeepSeek V4 Pro 或 Flash 的归一化价格进行对齐。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


具体归一化方法可以参考这个帖子:


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


部分模型的降价幅度非常夸张。Qwen3.7 Max 降了 82.8%,GLM 5.2 降了 69.3%,Kimi K2.7 Code 降了 55.2%。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


这些数字意味着什么?意味着你现在可以用 DeepSeek 的价格,跑任何一个参与实验的旗舰模型。


然后 ZenMux 做了一件更有意思的事:他们把所有模型的实时消耗量做成了一个公开的 Arena 榜单,任何人都可以看到每个模型此刻的 Token 流向。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


没有 Benchmark,没有官方评测报告。你的真实使用,就是投票。每一百万 Token,就是一票。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


说实话,我第一次看到这个活动的时候,脑子里闪过的第一个念头是:终于有人敢这么做了。


AI 模型市场有一个长期存在的认知困境:


发布会上,每家都说自己是「最强」。论文里,每家都在各种 Benchmark 上刷出漂亮的分数。但开发者真正用起来的感受,和这些数字之间经常存在巨大的落差。


原因很简单。Benchmark 测的是标准化的题目,而真实工作流里的任务千变万化。一个模型在 MMLU 上得分再高,如果它在你的 Agent 循环里经常丢失上下文,或者在长代码生成时频繁出错,你也不会选它。


与其让专家评测,不如让市场说话。当价格被拉平,开发者每天打出去的 Token 就是最诚实的评分。


我自己跑了一个测试


参考大模型测试最热的鹈鹕骑自行车测评,设计了一个对模型综合能力要求比较高的任务:


Generate an SVG of a fly dragon in the sky,输出 Token 至少 100000 个,尽可能的逼真。


为什么选这个?因为 SVG 生成是一个非常考验模型的任务。它不像写文章那样可以模糊处理,SVG 要求精确的坐标计算、颜色搭配、路径规划,同时还需要对「飞龙」这个概念有足够的视觉想象力。更关键的是,我要求输出至少 100000 个 Token,尽可能逼真。这意味着模型需要在长输出过程中保持结构一致性,不能到后面就开始胡来。


我的 Prompt 是:Generate an SVG of a fly dragon in the sky. 输出至少 10000 个 token,尽可能逼真。


这里通过 dragon 限定了要画的是西方龙。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


然后在 ZenMux 上把这个任务分别丢给了几个参与实验的模型。


结果差异非常明显。


GLM 5.2 给出的龙画的最好,它生成了一条姿态舒展的飞翔的火龙,整的细节细节还蛮到位的。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


Kimi K2.7 Code 的输出让我印象深刻,风格偏向几何感更强的现代插画路线,龙的形态更抽象一些,有点像飞在天空的大蜥蜴。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


Qwen3.7-Max 走了一条比较写实的路线,不过尾巴有点长,有点像个大虫子。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


DeepSeek V4 Pro 的输出比较一般。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


MiniMax M3 给了我一个小惊喜,它生成的龙感觉细节比较多,感觉有点像个大香肠,视觉冲击力是几个模型里比较强的。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


这个测试让我真切感受到:当价格被拉平之后,模型之间的能力差异确实是存在的,而且这种差异不是「谁好谁坏」这么简单,是风格、擅长领域、长输出稳定性等多个维度的综合表现。


实时数据正在讲述一个故事


截至我写这篇文章的时候,ZenMux 的 Token Economics Arena 已经跑了几天。


实时榜单上的数据开始呈现出一些有意思的格局。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


首先,DeepSeek V4 Pro 依然保持着很强的调用量。即便其他模型降到了同样的价格,用户的使用惯性和信任度仍然在起作用。这说明一个模型一旦成为开发者工作流里的默认选项,替换成本是很高的。


但更值得关注的是,GLM 5.2 的用量在实验开始后出现了明显的跳升,已经反超 DeepSeek V4 Pro 成为第一。这暗示了一个可能:之前限制这些模型增长的,确实有一部分是价格因素。当价格壁垒被移除,能力本身开始被看见。


Doubao Seed 2.1 Pro 作为刚发布不久的新模型,起步曲线也比较陡。字节在模型能力上的投入开始在真实市场里产生反馈。


ZenMux 把这些数据完全公开,任何人都可以去 arena.zenmux.ai/token-economics 查看实时排名。你可以看到哪个模型在哪个时间段被大量调用,也可以从 Token 和 Cost 两个维度切换观察。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


这场实验在回答什么问题


过去两年,中国大模型市场的竞争逻辑经历了几个阶段。最开始是参数竞赛,谁的模型大谁就厉害。后来变成 Benchmark 竞赛,谁的得分高谁就领先。再后来是价格战,DeepSeek 把价格打下来之后,很多厂商被迫跟进降价。


但降价之后呢?


如果所有人都降到了同一个价格区间,下一步的竞争焦点是什么?


ZenMux 这次实验给出了一个可能的方向:真实场景里的综合体验。


这个综合体验包含很多东西。模型在 Coding 任务里的准确率和效率,在 Agent 循环中的上下文保持能力,在长文本处理时的稳定性,在多语种场景下的翻译质量,在内容生产时的创造力和格式控制力。


这些东西,没有一个单一的 Benchmark 能全部覆盖。


所以 ZenMux 设计了五个场景板块让用户自由探索和讨论(即将开启)。Coding、Agent、Long Context、多语种、内容生产,每个板块都是一个独立的竞技场。


你还可以用小票的形式,打印自己的投票数据(即将开启)。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


这个活动持续到 7 月底,最终会评出两个奖项。


「最受欢迎奖」颁给消耗量最大的模型,「最佳表现奖」颁给得票数最高的模型。


这些实时流动的 Token 数据,最终会告诉我们:当中国 AI 模型的价格战打到尽头,真正能留住开发者的是什么。


如果你也好奇这个答案,现在就可以去参与:选一个你看好的模型,用同样的任务跑一遍,看看结果是否符合你的预期。你的每一次调用都会被记录在 Arena 榜单上,成为这场大规模市场实验的一部分。


ZenMux 的 Token 经济学实验:当主流模型的价格被降到 DeepSeek 斩杀线,你会选择谁?


没有 Benchmark 能替你决定该用哪个模型。


你的手感,你的体验,你打出去的每一个 Token,才是最真实的答案。


文章来自于"特工宇宙",作者 "特工小琼 特工小饼"。

AI转型,免费服务,就找AITNT
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0