AI资讯新闻榜单内容搜索-SWE-Bench

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: SWE-Bench
能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

今天是一期硬核的话题讨论: Coding Agent 评测。 AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的

来自主题: AI技术研报
7744 点击    2026-01-18 14:56
「北京版幻方」九坤投资冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

又一个中国新模型被推到聚光灯下,刷屏国内外科技圈。IQuest-Coder-V1模型系列,看起来真的很牛。在最新版SWE-Bench Verified榜单中,40B参数版本的IQuest-Coder取得了81.4%的成绩,这个成绩甚至超过了Claude Opus-4.5和GPT-5.2(这俩模型没有官方资料,但外界普遍猜测参数规模在千亿-万亿级)。

来自主题: AI资讯
8875 点击    2026-01-02 15:14
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

MiniMax最新旗舰级Coding & Agent模型M2.1,刚刚对外发布了。这一次,它直接甩出了一份硬核成绩单,在衡量多语言软件工程能力的Multi-SWE-bench榜单中,以仅10B的激活参数拿下了49.4%的成绩,超越了Claude Sonnet 4.5等国际顶尖竞品,拿下全球SOTA。

来自主题: AI资讯
8598 点击    2025-12-24 08:08
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

倒反天罡! Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数,比超大杯Pro还略胜一筹。

来自主题: AI资讯
8722 点击    2025-12-23 10:33
字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶

字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶

字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶

来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode,在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶,力压一众编程智能体。

来自主题: AI资讯
9459 点击    2025-12-05 14:51
小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写,二者以数百万美元成本、开源权重,凭MoE与MuonClip等优化,在SWE-Bench与BrowseComp等基准追平或超越GPT-5,并以更低API价格与本地部署撬动市场预期,促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。

来自主题: AI资讯
9620 点击    2025-11-10 09:19
开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

学界杀入主赛道!UCL 校园团队 EuniAI 抛出开源智能体 Prometheus,在 SWE-bench Verified 上 71.2% Pass@1、主榜实锤合并;成本低至 $0.23/issue。

来自主题: AI技术研报
9714 点击    2025-10-28 10:34
开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座,再度易主!来自快手的KAT-Dev-72B-Exp,在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一。KAT-Dev-72B-Exp是KAT-Coder模型的实验性强化学习版本。

来自主题: AI资讯
11403 点击    2025-10-11 15:57
Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码

Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码

Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码

最强编程模型让位了。 但没有换人,依然是Claude。 新发布的Claude Sonnet 4.5,在SWE-bench上的成绩比Sonnet 4提升了1.8个百分点,而且提质不加价。

来自主题: AI资讯
8616 点击    2025-09-30 16:20
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。

来自主题: AI技术研报
10297 点击    2025-09-22 16:11