AI资讯新闻榜单内容搜索-SWE-bench

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

编程智能体时代，顶流Cursor举旗发布新的评测基准——CursorBench，专门评价Cursor中不同模型谁更“智能体”（即高效执行复杂任务）。关于咋评的这个问题，Cursor还专门撰写了一篇博客。

来自主题: AI资讯

8225 点击 2026-03-14 13:59

不止修bug：Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后，用真实世界代码仓库+可执行测试评测大模型软件工程能力，几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展，也催生了一系列 SWE 系列 benchmark，在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报

7338 点击 2026-03-04 13:44

刚刚，DeepSeek V4基准测试泄露！疑似明天发布，全场惊呼新王归来

DeepSeek V4，据说明天就要上线了？这是首个匹敌顶尖闭源模型的开源模型，被网友评为「一鲸落万物生」。泄露的基准测试显示，它在SWE-bench Verified上取得了83.7%，已经超越Opus 4.5和GPT-5.2！

来自主题: AI资讯

9586 点击 2026-02-16 20:04

阿里深夜开源80B编程模型！专攻智能体，周靖人、林俊旸最新成果发布

个人电脑也能跑出顶级编程智能体？今日凌晨，阿里开源了一款小型混合专家模型Qwen3-Coder-Next，专为编程智能体（Agent）和本地开发打造。该模型总参数80B，激活参数仅3B，在权威基准SWE-Bench Verified上实现了超70%的问题解决率，性能媲美激活参数规模大10-20倍的稠密模型。

来自主题: AI资讯

8587 点击 2026-02-04 17:31

能上生产才是硬道理！Coding Agent 评测，终于开始关注过程了

今天是一期硬核的话题讨论： Coding Agent 评测。 AI 编程能力进步飞速，在国外御三家和国产中厂四杰的努力下，AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的

来自主题: AI技术研报

8226 点击 2026-01-18 14:56

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

又一个中国新模型被推到聚光灯下，刷屏国内外科技圈。IQuest-Coder-V1模型系列，看起来真的很牛。在最新版SWE-Bench Verified榜单中，40B参数版本的IQuest-Coder取得了81.4%的成绩，这个成绩甚至超过了Claude Opus-4.5和GPT-5.2（这俩模型没有官方资料，但外界普遍猜测参数规模在千亿-万亿级）。

来自主题: AI资讯

9544 点击 2026-01-02 15:14

AI Coding新王登场！MiniMax M2.1拿下多语言编程SOTA

MiniMax最新旗舰级Coding & Agent模型M2.1，刚刚对外发布了。这一次，它直接甩出了一份硬核成绩单，在衡量多语言软件工程能力的Multi-SWE-bench榜单中，以仅10B的激活参数拿下了49.4%的成绩，超越了Claude Sonnet 4.5等国际顶尖竞品，拿下全球SOTA。

来自主题: AI资讯

9021 点击 2025-12-24 08:08

倒反天罡！Gemini Flash表现超越Pro，“帕累托前沿已经反转了”

倒反天罡！ Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数，比超大杯Pro还略胜一筹。

来自主题: AI资讯

9179 点击 2025-12-23 10:33

字节前技术负责人创业，联手清华姚班校友，编程智能体世界登顶

来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode，在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶，力压一众编程智能体。

来自主题: AI资讯

9972 点击 2025-12-05 14:51

小成本DeepSeek和Kimi，正攻破奥特曼的「算力护城河」

2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写，二者以数百万美元成本、开源权重，凭MoE与MuonClip等优化，在SWE-Bench与BrowseComp等基准追平或超越GPT-5，并以更低API价格与本地部署撬动市场预期，促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。

来自主题: AI资讯

10170 点击 2025-11-10 09:19