太卷了！专属Coding的新一代Arena榜单来了，有国产模型登上榜首

10579点击 2025-11-14 10:59

大模型编程最近太猛了。

自从编码成了大模型的核心能力后，各大模型厂商都卷得要命，从卷模型参数和性能，到卷开发工具链，编码能力的提升，简直是一场军备竞赛。

近几个月以来，以 Claude 4.5、GLM-4.6、kimi-k2 等为代表的编码模型，都具备了执行复杂项目开发，构建真实应用程序的能力。

卷模型能力只是个开始，各大厂商也已全面进军智能编码产品，各类 IDE 产品层出不穷。就连服务套餐也开始卷出「和 AI 砍价」的新花样，智能编程领域逐渐成为了新的红海。

在模型能力飞涨的情况下，业界知名的大模型公共基准测试平台 LMArena 也敏锐地意识到，「问题已经不再是模型能否编写代码，而是它如何端到端构建真实应用程序。」

这个汇集了全球数百万用户真实反馈的「盲测」竞技场，其榜单排名已成为各大 AI 公司新模型宣发时彰显实力的「标配」。

就在今天，LMArena 做出了今年最大的更新，发布了新世代大模型编码评估系统：Code Arena，这可以说是编程大模型能力评估领域的重大事件。

太卷了！专属Coding的新一代Arena榜单来了，有国产模型登上榜首

曾经大模型编码的「黄金标准」 WebDev Arena 是首个引入大规模、人机协同的 AI 编码基准测试的榜单。开发者可以观察模型构建真实应用程序、与输出交互并对性能进行投票，使评估过程更具参与性和透明度。

相比于旧时代的 WebDev Arena 编码榜单，Code Arena 从底层重构而成，它不仅评估代码是否能运行，更评估其性能表现、交互自然度，以及对设计意图的忠实程度。

最重要的是，这个新系统测量的是「代码的动态过程」—— 捕捉模型在真实开发条件下如何思考、规划与构建的全过程。这不是静态基准测试。这是在真实世界中由真实 Arena 用户进行的实际评估。

Code Arena 的发布，标志着大模型编码评估标准的又一次进化，重塑了大模型评估的标杆。

在这个全新的榜单里，我们惊喜地发现，国产大模型智谱 GLM-4.6 赫然列于榜首，超越了 Gemini 和 Grok，与 Claude、GPT-5 并列排名第一。

太卷了！专属Coding的新一代Arena榜单来了，有国产模型登上榜首

智谱 GLM-4.6 于 9 月 30 日发布，一登场便以媲美 Claude Sonnet 4 的卓越编码能力，成为彼时的「国内最强 Coding 模型」。

太卷了！专属Coding的新一代Arena榜单来了，有国产模型登上榜首

时隔一个半月，GLM-4.6 的 Coding 能力仍能在最新发布的编程评估榜单中，与 Claude、GPT-5 并列第一，持续领跑全球第一梯队，足见其稳定，超前的编码能力。

事实上，其实力早已得到验证。

10 月初，就在 GLM 4.6 发布几天后，编程智能体 Cline 的产品经理 Nick Baumann 发帖表示，根据 Cline 遥测数据对数百万次「diff edits」（代码修改）操作的分析，zAI 的 GLM-4.6 模型达到了 94.9% 的成功率，而 Anthropic 的 Claude Sonnet 4.5 成功率为 96.2%。

太卷了！专属Coding的新一代Arena榜单来了，有国产模型登上榜首

他认为，这一数据意义重大，因为就在三个月前，（开放）开源模型与顶尖闭源模型在同类任务上的性能差距还高达 5 到 10 个百分点。而现在，这个差距已经缩小到了「基点」（basis points），表明两者在最困难的编码任务之一上的能力正在迅速趋同。

此外，Baumann 提到 Cline 的社区用户中已经出现了转向使用 GLM-4.6 完成日常工作的热潮。

有趣的是，AI 编程独角兽 Cognition 近期推出的最新 AI 模型 SWE-1.5，被质疑是基于 GLM 4.6 模型进行定制（精调 / 强化学习），并运行在全球最大的 AI 推理芯片公司 Cerebras 的硬件上。

太卷了！专属Coding的新一代Arena榜单来了，有国产模型登上榜首

有人对 SWE 1.5 进行了大模型「越狱」，结果模型直接回答自己是智谱 AI 开发的 GLM 大模型。

而值得一提的是，Cerebras 决定将 GLM-4.6 作为默认推荐模型，其在给所有用户的邮件中表示：qwen-3-coder-480b 将于 2025 年 11 月 5 日被停止使用，同时推出 GLM-4.6 作为新的基座模型。

太卷了！专属Coding的新一代Arena榜单来了，有国产模型登上榜首

以上 GLM-4.6 的光辉战绩，不仅证明了其作为开源世界「最强 Coding 模型」受到广泛认可，更让业界再次见证了国产大模型的硬核实力。

正如 Cline 产品经理所观察到的，从几个月前的「5 到 10 个百分点」差距，到如今的「基点」之差，这背后是国产力量从「追赶」到「并跑」乃至「领跑」的惊人加速度。

在过去由 Llama 系列主导的开源开放生态中，以 DeepSeek、Qwen、GLM、Kimi 等为代表的中国开源模型，正凭借其卓越的性能和极高的成本效益，成为全球 AI 开发者的新选择。

这，正是国产大模型力量崛起的最佳注脚。

参考链接：

https://x.com/nickbaumann_/status/1973846157886697771

https://x.com/arena/status/1988665199000498369

https://news.lmarena.ai/code-arena/

文章来自于“机器之心”，作者 “冷猫、+0”。

关键词: AI新闻 , Arena , AI编程榜单 , LMArena , Code Arena

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md