大模型编程最近太猛了。
自从编码成了大模型的核心能力后,各大模型厂商都卷得要命,从卷模型参数和性能,到卷开发工具链,编码能力的提升,简直是一场军备竞赛。
近几个月以来,以 Claude 4.5、GLM-4.6、kimi-k2 等为代表的编码模型,都具备了执行复杂项目开发,构建真实应用程序的能力。
卷模型能力只是个开始,各大厂商也已全面进军智能编码产品,各类 IDE 产品层出不穷。就连服务套餐也开始卷出「和 AI 砍价」的新花样,智能编程领域逐渐成为了新的红海。
在模型能力飞涨的情况下,业界知名的大模型公共基准测试平台 LMArena 也敏锐地意识到,「问题已经不再是模型能否编写代码,而是它如何端到端构建真实应用程序。」
这个汇集了全球数百万用户真实反馈的「盲测」竞技场,其榜单排名已成为各大 AI 公司新模型宣发时彰显实力的「标配」。
就在今天,LMArena 做出了今年最大的更新,发布了新世代大模型编码评估系统:Code Arena,这可以说是编程大模型能力评估领域的重大事件。

曾经大模型编码的「黄金标准」 WebDev Arena 是首个引入大规模、人机协同的 AI 编码基准测试的榜单。开发者可以观察模型构建真实应用程序、与输出交互并对性能进行投票,使评估过程更具参与性和透明度。
相比于旧时代的 WebDev Arena 编码榜单,Code Arena 从底层重构而成,它不仅评估代码是否能运行,更评估其性能表现、交互自然度,以及对设计意图的忠实程度。
最重要的是,这个新系统测量的是「代码的动态过程」—— 捕捉模型在真实开发条件下如何思考、规划与构建的全过程。这不是静态基准测试。这是在真实世界中由真实 Arena 用户进行的实际评估。
Code Arena 的发布,标志着大模型编码评估标准的又一次进化,重塑了大模型评估的标杆。
在这个全新的榜单里,我们惊喜地发现,国产大模型智谱 GLM-4.6 赫然列于榜首,超越了 Gemini 和 Grok,与 Claude、GPT-5 并列排名第一。

智谱 GLM-4.6 于 9 月 30 日发布,一登场便以媲美 Claude Sonnet 4 的卓越编码能力,成为彼时的「国内最强 Coding 模型」。

时隔一个半月,GLM-4.6 的 Coding 能力仍能在最新发布的编程评估榜单中,与 Claude、GPT-5 并列第一,持续领跑全球第一梯队,足见其稳定,超前的编码能力。
事实上,其实力早已得到验证。
10 月初,就在 GLM 4.6 发布几天后,编程智能体 Cline 的产品经理 Nick Baumann 发帖表示,根据 Cline 遥测数据对数百万次「diff edits」(代码修改)操作的分析,zAI 的 GLM-4.6 模型达到了 94.9% 的成功率,而 Anthropic 的 Claude Sonnet 4.5 成功率为 96.2%。

他认为,这一数据意义重大,因为就在三个月前,(开放)开源模型与顶尖闭源模型在同类任务上的性能差距还高达 5 到 10 个百分点。而现在,这个差距已经缩小到了「基点」(basis points),表明两者在最困难的编码任务之一上的能力正在迅速趋同。
此外,Baumann 提到 Cline 的社区用户中已经出现了转向使用 GLM-4.6 完成日常工作的热潮。
有趣的是,AI 编程独角兽 Cognition 近期推出的最新 AI 模型 SWE-1.5,被质疑是基于 GLM 4.6 模型进行定制(精调 / 强化学习),并运行在全球最大的 AI 推理芯片公司 Cerebras 的硬件上。

有人对 SWE 1.5 进行了大模型「越狱」,结果模型直接回答自己是智谱 AI 开发的 GLM 大模型。
而值得一提的是,Cerebras 决定将 GLM-4.6 作为默认推荐模型,其在给所有用户的邮件中表示:qwen-3-coder-480b 将于 2025 年 11 月 5 日被停止使用,同时推出 GLM-4.6 作为新的基座模型。

以上 GLM-4.6 的光辉战绩,不仅证明了其作为开源世界「最强 Coding 模型」受到广泛认可,更让业界再次见证了国产大模型的硬核实力。
正如 Cline 产品经理所观察到的,从几个月前的「5 到 10 个百分点」差距,到如今的「基点」之差,这背后是国产力量从「追赶」到「并跑」乃至「领跑」的惊人加速度。
在过去由 Llama 系列主导的开源开放生态中,以 DeepSeek、Qwen、GLM、Kimi 等为代表的中国开源模型,正凭借其卓越的性能和极高的成本效益,成为全球 AI 开发者的新选择。
这,正是国产大模型力量崛起的最佳注脚。
参考链接:
https://x.com/nickbaumann_/status/1973846157886697771
https://x.com/arena/status/1988665199000498369
https://news.lmarena.ai/code-arena/
文章来自于“机器之心”,作者 “冷猫、+0”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md