AI资讯新闻榜单内容搜索-SWE-bench

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: SWE-bench
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报
8445 点击    2026-04-19 13:40
正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…

正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…

正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…

今天,智谱正式开源其最强模型GLM-5.1,这一模型在专业软件开发基准测试SWE-Bench Pro中,GLM-5.1刷新全球最佳成绩,得分达到58.4,超过了GPT-5.4、Claude Opus 4.6等已经正式发布的闭源模型,和MiniMax M2.7、Kimi K2.5等开源模型。

来自主题: AI资讯
9030 点击    2026-04-08 14:15
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

编程智能体时代,顶流Cursor举旗发布新的评测基准——CursorBench,专门评价Cursor中不同模型谁更“智能体”(即高效执行复杂任务)。关于咋评的这个问题,Cursor还专门撰写了一篇博客。

来自主题: AI资讯
8955 点击    2026-03-14 13:59
不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报
7607 点击    2026-03-04 13:44
刚刚,DeepSeek V4基准测试泄露!疑似明天发布,全场惊呼新王归来

刚刚,DeepSeek V4基准测试泄露!疑似明天发布,全场惊呼新王归来

刚刚,DeepSeek V4基准测试泄露!疑似明天发布,全场惊呼新王归来

DeepSeek V4,据说明天就要上线了?这是首个匹敌顶尖闭源模型的开源模型,被网友评为「一鲸落万物生」。泄露的基准测试显示,它在SWE-bench Verified上取得了83.7%,已经超越Opus 4.5和GPT-5.2!

来自主题: AI资讯
9896 点击    2026-02-16 20:04
阿里深夜开源80B编程模型!专攻智能体,周靖人、林俊旸最新成果发布

阿里深夜开源80B编程模型!专攻智能体,周靖人、林俊旸最新成果发布

阿里深夜开源80B编程模型!专攻智能体,周靖人、林俊旸最新成果发布

个人电脑也能跑出顶级编程智能体?今日凌晨,阿里开源了一款小型混合专家模型Qwen3-Coder-Next,专为编程智能体(Agent)和本地开发打造。该模型总参数80B,激活参数仅3B,在权威基准SWE-Bench Verified上实现了超70%的问题解决率,性能媲美激活参数规模大10-20倍的稠密模型。

来自主题: AI资讯
8849 点击    2026-02-04 17:31
能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

今天是一期硬核的话题讨论: Coding Agent 评测。 AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的

来自主题: AI技术研报
8471 点击    2026-01-18 14:56
「北京版幻方」九坤投资冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

又一个中国新模型被推到聚光灯下,刷屏国内外科技圈。IQuest-Coder-V1模型系列,看起来真的很牛。在最新版SWE-Bench Verified榜单中,40B参数版本的IQuest-Coder取得了81.4%的成绩,这个成绩甚至超过了Claude Opus-4.5和GPT-5.2(这俩模型没有官方资料,但外界普遍猜测参数规模在千亿-万亿级)。

来自主题: AI资讯
9759 点击    2026-01-02 15:14
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

MiniMax最新旗舰级Coding & Agent模型M2.1,刚刚对外发布了。这一次,它直接甩出了一份硬核成绩单,在衡量多语言软件工程能力的Multi-SWE-bench榜单中,以仅10B的激活参数拿下了49.4%的成绩,超越了Claude Sonnet 4.5等国际顶尖竞品,拿下全球SOTA。

来自主题: AI资讯
9213 点击    2025-12-24 08:08
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

倒反天罡! Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数,比超大杯Pro还略胜一筹。

来自主题: AI资讯
9383 点击    2025-12-23 10:33