AI资讯新闻榜单内容搜索-SWE-Bench

花了1000倍的token，效果可能却没有更好：AI Agent的“隐性账单”长什么样

如今的 AI Agent 正在大规模落地，其中应用最广且最受关注的当数 Claude Code，Codex，Cursor 这类 coding agent。过去的一年里，这类 coding agent 产品迭代迅速，在一年内将在 swe-bench- verified 的准确率提高到了 78%+。

来自主题: AI技术研报

6810 点击 2026-05-19 10:00

0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。

来自主题: AI技术研报

10191 点击 2026-05-07 15:31

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

SWE-Bench上能拿72%的模型，换张考卷直接归零！Meta联合斯坦福、哈佛放出ProgramBench，200个项目从零手写，9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网，就有模型在36%的任务里跑去GitHub扒源码。

来自主题: AI技术研报

6348 点击 2026-05-07 12:03

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

伯克利团队归纳出7种反复出现的模式：智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报

8993 点击 2026-04-19 13:40

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

今天，智谱正式开源其最强模型GLM-5.1，这一模型在专业软件开发基准测试SWE-Bench Pro中，GLM-5.1刷新全球最佳成绩，得分达到58.4，超过了GPT-5.4、Claude Opus 4.6等已经正式发布的闭源模型，和MiniMax M2.7、Kimi K2.5等开源模型。

来自主题: AI资讯

9481 点击 2026-04-08 14:15

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

编程智能体时代，顶流Cursor举旗发布新的评测基准——CursorBench，专门评价Cursor中不同模型谁更“智能体”（即高效执行复杂任务）。关于咋评的这个问题，Cursor还专门撰写了一篇博客。

来自主题: AI资讯

9309 点击 2026-03-14 13:59

不止修bug：Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后，用真实世界代码仓库+可执行测试评测大模型软件工程能力，几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展，也催生了一系列 SWE 系列 benchmark，在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报

7894 点击 2026-03-04 13:44

刚刚，DeepSeek V4基准测试泄露！疑似明天发布，全场惊呼新王归来

DeepSeek V4，据说明天就要上线了？这是首个匹敌顶尖闭源模型的开源模型，被网友评为「一鲸落万物生」。泄露的基准测试显示，它在SWE-bench Verified上取得了83.7%，已经超越Opus 4.5和GPT-5.2！

来自主题: AI资讯

10247 点击 2026-02-16 20:04

阿里深夜开源80B编程模型！专攻智能体，周靖人、林俊旸最新成果发布

个人电脑也能跑出顶级编程智能体？今日凌晨，阿里开源了一款小型混合专家模型Qwen3-Coder-Next，专为编程智能体（Agent）和本地开发打造。该模型总参数80B，激活参数仅3B，在权威基准SWE-Bench Verified上实现了超70%的问题解决率，性能媲美激活参数规模大10-20倍的稠密模型。

来自主题: AI资讯

9197 点击 2026-02-04 17:31

能上生产才是硬道理！Coding Agent 评测，终于开始关注过程了

今天是一期硬核的话题讨论： Coding Agent 评测。 AI 编程能力进步飞速，在国外御三家和国产中厂四杰的努力下，AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的

来自主题: AI技术研报

8783 点击 2026-01-18 14:56