ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

9078点击 2026-06-30 09:55

你有没有想过一个问题：

我们平时选模型，到底有多少是因为它真的好用，又有多少是因为它便宜？

上周，ZenMux 发起了一场实验：https://zenmux.ai/blog/zenmux-token-economics。

他们把 GLM 5.2、Kimi K2.7 Code、Qwen3.7-Max、MiniMax M3、Doubao Seed 2.1 Pro 等十几个热门模型的价格，全部打到了和 DeepSeek V4 Pro/Flash 同一水平线。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

现在价格一样了，大家会选谁？

一场关于「真实选择」的实验

先说 ZenMux 为什么要做这件事。

过去几周，他们在平台上观察到一个非常明显的趋势：DeepSeek 的调用量增长极快，V4 Pro 的 Token 消耗一度逼近 Claude Opus 4.8。与此同时，GLM 5.2 等国产模型也在快速爬升。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

问题来了。这个增长，是因为模型能力确实强，还是因为价格足够低？

如果是前者，说明国产模型的能力已经真正被开发者认可。如果是后者，那一旦价格优势消失，用户会不会立刻迁移？

ZenMux 决定用最直接的方式验证这个问题：把价格变量抹平，看看剩下的东西能不能留住用户。

参与这次实验的模型名单很长，几乎覆盖了当前国内主流大模型厂商的旗舰产品：

GLM 5.2、Kimi K2.7 Code、Qwen3.7-Plus/Max、MiniMax M3、Step 3.7 Flash、Agnes-2.0-Flash、ERNIE 5.1、Ring-2.6-1T、Ling-2.6-1T/flash、Hy3 preview、MiMo-V2.5 Pro、KAT-Coder-Pro-V2、Doubao-Seed-2.1-pro/mini，全部按照 DeepSeek V4 Pro 或 Flash 的归一化价格进行对齐。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

具体归一化方法可以参考这个帖子：

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

部分模型的降价幅度非常夸张。Qwen3.7 Max 降了 82.8%，GLM 5.2 降了 69.3%，Kimi K2.7 Code 降了 55.2%。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

这些数字意味着什么？意味着你现在可以用 DeepSeek 的价格，跑任何一个参与实验的旗舰模型。

然后 ZenMux 做了一件更有意思的事：他们把所有模型的实时消耗量做成了一个公开的 Arena 榜单，任何人都可以看到每个模型此刻的 Token 流向。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

没有 Benchmark，没有官方评测报告。你的真实使用，就是投票。每一百万 Token，就是一票。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

说实话，我第一次看到这个活动的时候，脑子里闪过的第一个念头是：终于有人敢这么做了。

AI 模型市场有一个长期存在的认知困境：

发布会上，每家都说自己是「最强」。论文里，每家都在各种 Benchmark 上刷出漂亮的分数。但开发者真正用起来的感受，和这些数字之间经常存在巨大的落差。

原因很简单。Benchmark 测的是标准化的题目，而真实工作流里的任务千变万化。一个模型在 MMLU 上得分再高，如果它在你的 Agent 循环里经常丢失上下文，或者在长代码生成时频繁出错，你也不会选它。

与其让专家评测，不如让市场说话。当价格被拉平，开发者每天打出去的 Token 就是最诚实的评分。

我自己跑了一个测试

参考大模型测试最热的鹈鹕骑自行车测评，设计了一个对模型综合能力要求比较高的任务：

Generate an SVG of a fly dragon in the sky，输出 Token 至少 100000 个，尽可能的逼真。

为什么选这个？因为 SVG 生成是一个非常考验模型的任务。它不像写文章那样可以模糊处理，SVG 要求精确的坐标计算、颜色搭配、路径规划，同时还需要对「飞龙」这个概念有足够的视觉想象力。更关键的是，我要求输出至少 100000 个 Token，尽可能逼真。这意味着模型需要在长输出过程中保持结构一致性，不能到后面就开始胡来。

我的 Prompt 是：Generate an SVG of a fly dragon in the sky. 输出至少 10000 个 token，尽可能逼真。

这里通过 dragon 限定了要画的是西方龙。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

然后在 ZenMux 上把这个任务分别丢给了几个参与实验的模型。

结果差异非常明显。

GLM 5.2 给出的龙画的最好，它生成了一条姿态舒展的飞翔的火龙，整的细节细节还蛮到位的。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

Kimi K2.7 Code 的输出让我印象深刻，风格偏向几何感更强的现代插画路线，龙的形态更抽象一些，有点像飞在天空的大蜥蜴。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

Qwen3.7-Max 走了一条比较写实的路线，不过尾巴有点长，有点像个大虫子。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

DeepSeek V4 Pro 的输出比较一般。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

MiniMax M3 给了我一个小惊喜，它生成的龙感觉细节比较多，感觉有点像个大香肠，视觉冲击力是几个模型里比较强的。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

这个测试让我真切感受到：当价格被拉平之后，模型之间的能力差异确实是存在的，而且这种差异不是「谁好谁坏」这么简单，是风格、擅长领域、长输出稳定性等多个维度的综合表现。

实时数据正在讲述一个故事

截至我写这篇文章的时候，ZenMux 的 Token Economics Arena 已经跑了几天。

实时榜单上的数据开始呈现出一些有意思的格局。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

首先，DeepSeek V4 Pro 依然保持着很强的调用量。即便其他模型降到了同样的价格，用户的使用惯性和信任度仍然在起作用。这说明一个模型一旦成为开发者工作流里的默认选项，替换成本是很高的。

但更值得关注的是，GLM 5.2 的用量在实验开始后出现了明显的跳升，已经反超 DeepSeek V4 Pro 成为第一。这暗示了一个可能：之前限制这些模型增长的，确实有一部分是价格因素。当价格壁垒被移除，能力本身开始被看见。

Doubao Seed 2.1 Pro 作为刚发布不久的新模型，起步曲线也比较陡。字节在模型能力上的投入开始在真实市场里产生反馈。

ZenMux 把这些数据完全公开，任何人都可以去 arena.zenmux.ai/token-economics 查看实时排名。你可以看到哪个模型在哪个时间段被大量调用，也可以从 Token 和 Cost 两个维度切换观察。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

这场实验在回答什么问题

过去两年，中国大模型市场的竞争逻辑经历了几个阶段。最开始是参数竞赛，谁的模型大谁就厉害。后来变成 Benchmark 竞赛，谁的得分高谁就领先。再后来是价格战，DeepSeek 把价格打下来之后，很多厂商被迫跟进降价。

但降价之后呢？

如果所有人都降到了同一个价格区间，下一步的竞争焦点是什么？

ZenMux 这次实验给出了一个可能的方向：真实场景里的综合体验。

这个综合体验包含很多东西。模型在 Coding 任务里的准确率和效率，在 Agent 循环中的上下文保持能力，在长文本处理时的稳定性，在多语种场景下的翻译质量，在内容生产时的创造力和格式控制力。

这些东西，没有一个单一的 Benchmark 能全部覆盖。

所以 ZenMux 设计了五个场景板块让用户自由探索和讨论（即将开启）。Coding、Agent、Long Context、多语种、内容生产，每个板块都是一个独立的竞技场。

你还可以用小票的形式，打印自己的投票数据（即将开启）。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

这个活动持续到 7 月底，最终会评出两个奖项。

「最受欢迎奖」颁给消耗量最大的模型，「最佳表现奖」颁给得票数最高的模型。

这些实时流动的 Token 数据，最终会告诉我们：当中国 AI 模型的价格战打到尽头，真正能留住开发者的是什么。

如果你也好奇这个答案，现在就可以去参与：选一个你看好的模型，用同样的任务跑一遍，看看结果是否符合你的预期。你的每一次调用都会被记录在 Arena 榜单上，成为这场大规模市场实验的一部分。

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

没有 Benchmark 能替你决定该用哪个模型。

你的手感，你的体验，你打出去的每一个 Token，才是最真实的答案。

文章来自于"特工宇宙"，作者 "特工小琼特工小饼"。

关键词: AI新闻 , 国产大模型 , 国产大模型测评 , 国产大模型实测

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0