GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。
6357点击    2026-02-12 11:32

深夜,GLM-5来了。


还是老样子,发布即开源。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


而且前几天,OpenRouter平台不是有一个Pony Alpha的匿名模型很火吗。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


大家一度在猜是DeepSeek V4还是GLM-5,结果今天基本答案也揭晓了。


这大马,基本就是明示了。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


到了今天,2026年的主旋律我觉得真的就已经就定下了,无论是国内还是海外。


Coding与视频齐飞,人类共AI一色。


这应该就是2026年AI领域最核心的两个主航道了,在这两之上,其实就是Agent。


这几天真的感觉过年一样,太热闹了,上周GPT-5.3 codex和Claude Opus 4.6中门对狙,后脚Seedance 2.0席卷全球,而现在,战场又拉回了Coding这边。


GLM-5,作为一个全新的大版本号,我想说,升级幅度还是很大的,真的可以比肩Claude Opus 4.5,我不开玩笑。


我其实已经提前三天拿到了GLM-5的API,这几天在我用Codex开发的时候,也把GLM-5同步接入到了Claude code里同步开发进行对比。


虽然作为智谱一直以来的拥簇,很想吹一下GLM-5跟Seedance 2.0一样全球第一,但是我觉得还是实事求是。


在我这几天的使用过程中,我个人体感是,GLM-5跟GPT-5.3-codex这种变态肯定还是有一些距离(后面有case会展示),但是在真正产品的开发和解决BUG的能力上,我觉得是能摸一下GPT-5.2-codex和Claude Opus 4.5了。


不要觉得这好像是一件很容易的事,Coding国内落后的其实一直都比较远,能追上Opus 4.5的能力,其实已经非常非常非常牛逼了。


前几天,在GPT-5.3-codex和Opus 4.6中门对狙的文章里,我在评论区里评论说,要是DeepSeek能赶上Opus 4.5,我高低得给它磕两个。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


我是没想到,我现在可能得给智谱磕两个了。


非常坦诚的讲,在我日常开发过程中,我可能还是会选择GPT-5.3-codex + codex的组合,但是,我也深刻的清楚,并不是所有人,都有条件去买ChatGPT的会员的。


那如果你用不了GPT-5.3-codex的话,那我无比真诚的建议你,不用犹豫,就用GLM-5就行,这就是国内,你现在能用上的,最好、最棒、性价比最高的大模型。


Claude Code + GLM-5,是你无需魔法,国内可用,最低门槛体验AI Coding魅力的组合。


先老规矩,看下跑分和性能。


首先,GLM-5从355B(32B激活)扩展到744B参数(40B激活),参数量大了一倍,智能提升确实挺多,而且成本没有加特别多。


跑分上,目前在Artificial Analysis上仅次于那两个大爹,开源第1。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


然后整体能力上。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


相较于GLM-4.7,GLM-5全线能力基本都有了大幅提升,而且逼近Opus 4.5。


有一个比较有特点的,就是BrowseComp基准,这个我之前也说过,测的是Agent在网上搜索信息的能力,GLM-5得分75.9,直接超第二名普通的GPT-5.2有10个点,这个已经非常强了。


而另外两个最顶级的模型没放在里面,一个是GPT-5.2 Pro得分是77.9,Opus 4.6得分是84,GLM-5其实已经逼近最一线的水平了,能跟GPT-5.2 Pro打个平手,这事本身就挺强的了。


然后其他的,比如现实场景下改仓库代码的测试机SWE-bench,终端环境中agent能力的基准Terminal-Bench 2.0,agent工具使用的τ²-Bench,还有测试模型调用MCP能力的MCP-Atlas基准上,基本比Opus都只差那么临门一脚了。


说实话,一个国产模型,还开源出去,能到这个水平,已经非常非常让人自豪了。


同时在我看好的系统工程能力、长任务能力,在跑分上也能得到印证。


比如下面图上的Long-horizon基准,也就是长链条复杂任务,就能充分体现模型自主进行Agent长程多步规划和执行的能力。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


这个跑分看下来就很清晰了,也和我实测下来的感受一致,在真正需要做大开发的时候,它的长程任务上,确实是对标Opus 4.5的存在。


GLM-5的上下文窗口和GLM-4.7一样,目前还是200k的上下文窗口,输出是128K。


不过GLM-5有一个非常离谱的一点,就是这玩意我试下来,非常的省token,就是干活的感觉,非常精准,跟GPT-5.3-codex有的一拼,这点有多重要用过Opus 4.6的都懂,那上下文和消耗量,简直了。


然后就是价格上,一个是API价格,真的,国产模型,这价格便宜的让人心疼。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


Opus 4.5和4.6,都是$5/$25每百万token(输入/输出)。


而GLM-5大概只有Claude的七分之一。


很香,真的香。


另一方面那自然是不得不提的Coding Plan了,也是现在玩Vibe Coding的主流用法,基本都是买包月套餐,对标Claude Max和ChatGPT Pro的。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


价格是Claude Max套餐的2/3,Token额度是他们的3倍。


甚至因为卖的过于火爆,算力不够,前两个套餐额度,直接被抢空了。。。


没错,一个包月套餐,被抢空了。。。


这个太离谱了。


白天的时候大家可以蹲一蹲,网址在此:


https://bigmodel.cn/glm-coding


当你有了GLM-5的权限之后,想用的话,我最推荐的还是在Claude Code里面用。


因为Claude Code就是目前确实最通用的Coding Agent产品,Codex是单纯的例外,主要跟GPT适配的太好。


而在Claude code里接入GLM-5挺简单的。


这一点智谱做的很好,他们做了一个Coding Tool Helper工具就是可以快速将你的GLM编码套餐加载到你使用的编码工具中。


直接打开终端,然后输入:


# 进入命令行界面,执行如下运行 Coding Tool Helper

npx @z_ai/coding-helper


你就正常登录。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


目前支持的编码工具 Claude Code、OpenCode、Crush、Factory Droid。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


跟着配置就好,配置好以后,我们运行Claude Code。


你就可以使用GLM-5了。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


我也做了几个case,给大家直观的感受一下,GLM-5的能力。


前天我拿到GLM-5的资格的时候,正好有个需求要开发,就是一个全平台分发文章的需求。


做自媒体的朋友们应该知道,文章写完不是真正的结束,而是刚刚开始。


我一般写完微信公众号文章需要把文章同步分发到其他平台,这是个很大的工作量,而且有的编辑器还不一样,会出现乱码,文本格式丢失问题,我真。。。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


之前是用一个开源工具自己改的,但是其实没有那么好用,所以最近其实一直想自己开发一个。


所以,我当时就想,不如用GLM-5 Coding一个这样的全平台内容同步分发的这么个小产品吧。


开发完以后,发现效果居然还不错。


就是下面图中的这样,大概的功能就是把我微信公众号的文章链接放进去,然后点击想要同步的平台,就可以同步过去。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


当时开发的时候其实Prompt给的巨简单。


开发一个全平台内容分发Chrome 扩展,实现:

点击插件后进入内容分发页面(独立页面,非小 popup)

输入微信公众号链接,自动提取标题、封面、正文(保留格式)

右侧大尺寸富文本编辑器展示和编辑内容

底部平台复选列表(小红书、知乎等)

点击同步后,打开目标平台发布页面,自动填充内容


当时给过去以后,GLM-5的体感上,其实就比之前GLM-4.7强很多了。


按惯例,他先提供给我了一些关键设计让我去选择。


我也秉持着先开发一个最小MVP的原则去的。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


所以选的都比较谨慎。


接着GLM-5就给了超详细的规划。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


速度不慢,很快就搞定了。


总体的完成度和实用性很好,不过因为最开始最小MVP的原则,分发的平台有点少,后续我直接让他添加其他的平台,两轮就完成了。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


整体其实都还可以,但是在使用的时候,遇到了一个BUG。


就是我放入公众号链接后,让他提取标题、封面、正文,他标题和封面倒是可以成功提取出来,但是关键部分,也就是正文提取内容总是不全,会缺失一大截,图片也获取不到。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


改了两三轮,还是有BUG,然后我上Opus 4.5,居然也没改成功。。。


最后打开了GPT-5.3-codex,一轮,完成了。。。


GLM-5跟Opus 4.5的差距没那么大,其实是有道理的。


说实话,主要还是,GPT-5.3-codex这玩意真的强的有点变态。


所以这个case,其实就是GLM-5做的整体规划和方案设计,然后最后遇到一个棘手的BUG上Codex解决的,整体体验上,我录制了一遍效果展示的视频,总体体验下来还是挺不错的。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


然后还有另一个我觉得特别好玩的case。


就是,看到公司同事终于在用电脑模拟器,打欢乐斗地主。。。


当时他吐槽说,要是有记牌器就好了。。。


于是,我就想,这是个好思路,虽然不会帮他作弊,但是可以试一下大模型的能力。


上GLM-5试了一下,这个开发过程,还真的有点意思。


用的提示词很简单,就一句话。


“我正在我的电脑上玩欢乐斗地主PC模拟器版本,帮我写一个记牌插件。”


反正我是完全不知道怎么实现,更不知道怎么跟PC模拟器打通。。。


我就说了这么一个需求,GLM-5,他会自己进行更深入的咨询,包括识别方式、技术路线、功能需求,都会一一和我确认。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


比如在实现方式上,他提供自动识别记牌、手动点击记牌等方案让我选择,每个方案还会给出不同的技术实现路线。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


还有功能需求的确定,我这里选择了基础记牌。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


第一轮对话下来,记牌器整体框架都搭建好了。


虽然我选择的是自动识别模式,但他很贴心地把自动开发和手动开发两种模式都做了。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


手动模式第一轮其实就直接开发完了,就可以用了。


它的使用逻辑是需要我自己去看对方出什么牌,我就点击那张牌,牌数会自动减一。


但是这个逻辑太蠢了,一点都不自动,一点也不AI。


对方打一个牌,我还得手动点点点,这也太呆逼了。


所以我还是想要用自动识别模式,但第一轮对话后自动识别功能并没成功。


他这里自动识别的操作逻辑是这样的。


游戏开始的时候,我手动勾选出牌区域,他就会自动识别这个区域出的所有牌,并自动记牌。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


但实际上,我选中出牌区域后,它没法识别出的牌。明明这边都打起来了,它这边一直等待识别。。。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


我让它进一步修改。但是这样的bug它并没有一次改出来,改了一版后同样报错。


这个时候,它自己选择添加了调试功能。


我看了一下,应该是这个功能实现的链路主要有两部分,屏幕勾选区域截图,截图扑克牌识别,所以他需要调试确定哪个环节出了问题。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


这一步,可能是模拟器的原因,还涉及到比较复杂的跟屏幕的交互和监控,所以我得帮他一起测试一下。


他显示出我勾选区域的截图,也有OCR结果,这样我一下就能明白到底是哪个环节出了问题。


然后我就发现,每隔半秒截图的功能没问题,核心问题是,OCR一直识别不出结果。


bug找到了,后面的活就方便了,我就交给他直接搞了。


GLM-5自己开发了一套方案,他给出的识别方案是这样的,给每张牌都上传模板。


就像这样。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


然后他会对游戏页面截图进行灰度处理、二值化,然后和模板进行模式匹配,从而实现识别。


这个灰度处理和二值化,说实话我没听懂,我也怕GLM-5给我的不是最优解,所以打开了Opus 4.6和GPT-5.3-codex,让他们也同时出一套解决方案看看有没有更优解。


没想到跟GLM-5出的方案,是一模一样的,搞得还真没毛病。


这突然一下显得我有点小肚鸡肠,不信任GLM-5了= =


模板处理完之后,很快,他就把这个系统开发完了。


由于我注册的是新号,估计新手村对面是人机,出牌特别快。我本来还担心识别速度会跟不上。


没想到,识别效果出乎意料的好。除了大小王识别有点问题,其他全都能准确识别,哪怕是接连出顺子,也能精准识别。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


相当牛逼了。。。


要知道,这真的不是那种普通的前端网页,这个实现方式,还是稍微有那么点复杂的。


GLM-5,完成的非常的好。


大小王的识别问题我初步想了一下,是因为上传的模板中,字母是一样的,只是颜色不一样。


图片经过灰度处理后大小王不就一样了吗,那肯定分不清。不过大小王还是比较好记的,所以也没管这个。


而且,这是我一两个小时不到就做出来的东西,而且是已经可以实战用上的东西,这个效率,还是相当恐怖的。。。


同时,这里我也提醒大家上网打牌的时候,特别是现在这个阶段,在网上用真钱去做一些游戏的时候,真的要谨慎一点,因为你不知道对面会不会像我一样,随手Vibe Coding一个外挂。。。


除了这两个之外,我还随手,复刻了一个QQ农场。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


而且还有很多细节,比如如果我不收已经熟了的作物他会枯萎,然后农场里还会随机长出杂草、虫子。


相当有意思。


在数据存储上,还知道用浏览器LocalStorage作为数据存储,这是一个典型的前端单机游戏存储方案,很适合这种轻量级项目,大概的流程就是下面这个样子。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


而且这个QQ农场消耗的token,也就十三万。。。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


太离谱了。


从这些case其实已经非常客观的能看出来,GLM-5的开发能力,还是很强的,在一些规划、架构能力上,是真的可以比肩Opus 4.5的,虽然在精准的BUG修改上,离现在最变态的GPT-5.3-codex还有一些差距,但是我已经非常非常开心了。


而且还有个场景,GLM-5做的也很好,就是构建Skills。


这个其实也挺考验模型的理解和执行能力的。


我很喜欢用咱们的老演员yt-dlp测试GLM-5打包Skills的能力。


帮我把这个开源工具https://github.com/yt-dlp/yt-dlp打包成一个Skill,只要我后续给出视频链接,就可以帮我下载视频。


GLM-5封装的基本没有任何问题,一轮效果,B站视频就能成功下载了。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


而下载youtube视频,它也精准的提出了,需要我给一个Cookies,他才能帮我下载,我依稀记得,当时用Opus 4.5打包这个Skills,对话了6、7轮,改了N版,他也没告诉我要Cookies这事,就在那自己傻逼兮兮的告诉我改好了,可以下了,一下又报错。。。


GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。


看着此情此景,回想半年前。


那时候,如果你问我,国产大模型能不能在Coding领域跟OpenAI和Anthropic正面刚,我会说很难。


差距太大了,不是一点半点,是那种让人绝望的差距。


但现在,GLM-5出来了,确实能摸到Opus 4.5的水平。虽然跟最新的Opus 4.6和GPT-5.3-codex还有差距,但这个差距已经从代差缩小到了可以追赶的范围。


这是一个很重要的变化。


而且更重要的是,GLM-5是开源的,价格更是Claude的N分之1。


能力接近,开源免费,价格便宜。


而开源,更是意味着,B端能用上,企业能用上。


AI编程这件事,在国内,门槛真的,正在急剧降低。


以前你想用顶级的AI编程能力,得买ChatGPT的会员,得有魔法,得付得起那个价格。


现在不用了。


GLM-5给了你一个平替选择,虽然在全球领域,他距离那个老变态,他还不是最好的,但已经是跻身T1行列了,而且人人也都能用得起。


这会让更多人开始尝试AI编程,会让更多人感受到AI的魅力。


而当更多人用起来之后,社区会更活跃,反馈会更多,模型会迭代更快。


这是一个正向循环。


这也代表,我们在人才、在算力、在资金各方面都缺少的地不是,是能追上的。


当然,追上不代表胜利。


OpenAI和Anthropic还在快速迭代,下一个版本可能又把差距拉开。


但至少,我们已经进入了同一个赛道,在同一个维度上竞争。


这就是进步。


我非常非常推荐大家,去试试GLM-5吧,真的还不错。


站在今天这个节点,我其实很想说跟冯骥一样的话:


我真的很庆幸,这个开源模型。


来自智谱,来自中国。


在ds和sd之后的另外一个Coding世界里,也有了中国身位。


惟愿。


国运昌隆。


文章来自于“数字生命卡兹克”,作者 “卡兹克、林机梦逗、tashi”。

关键词: AI新闻 , GLM-5 , Pony Alpha , 智谱
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI富文本编辑器

【开源免费】AIEditor.dev是一个开箱即用、并且支持所有前端框架、支持 Markdown 书写模式的AI富文本编辑器。

项目地址:https://github.com/aieditor-team/AiEditor?tab=readme-ov-file

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0