AI资讯新闻榜单内容搜索-SWE-Bench

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: SWE-Bench
字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶

字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶

字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶

来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode,在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶,力压一众编程智能体。

来自主题: AI资讯
9180 点击    2025-12-05 14:51
小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写,二者以数百万美元成本、开源权重,凭MoE与MuonClip等优化,在SWE-Bench与BrowseComp等基准追平或超越GPT-5,并以更低API价格与本地部署撬动市场预期,促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。

来自主题: AI资讯
9379 点击    2025-11-10 09:19
开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

学界杀入主赛道!UCL 校园团队 EuniAI 抛出开源智能体 Prometheus,在 SWE-bench Verified 上 71.2% Pass@1、主榜实锤合并;成本低至 $0.23/issue。

来自主题: AI技术研报
9539 点击    2025-10-28 10:34
开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座,再度易主!来自快手的KAT-Dev-72B-Exp,在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一。KAT-Dev-72B-Exp是KAT-Coder模型的实验性强化学习版本。

来自主题: AI资讯
11240 点击    2025-10-11 15:57
Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码

Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码

Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码

最强编程模型让位了。 但没有换人,依然是Claude。 新发布的Claude Sonnet 4.5,在SWE-bench上的成绩比Sonnet 4提升了1.8个百分点,而且提质不加价。

来自主题: AI资讯
8425 点击    2025-09-30 16:20
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。

来自主题: AI技术研报
10159 点击    2025-09-22 16:11
多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而,如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近,随着 SWE-bench 团队发布最新的多模态 Issue 修复

来自主题: AI技术研报
7213 点击    2025-09-16 10:01
马斯克首个编码模型上线,编程飙进Top5!这9位华人天团爆肝打造

马斯克首个编码模型上线,编程飙进Top5!这9位华人天团爆肝打造

马斯克首个编码模型上线,编程飙进Top5!这9位华人天团爆肝打造

Grok首个编码模型终于来了!从0构建,编程实力超强,直接冲进SWE-bench前五,仅次于OpenAI Codex-1。背后核心团队同时被爆出,华人学者占多半。

来自主题: AI资讯
8168 点击    2025-08-30 11:43
「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?

「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?

「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?

一直以来,Anthropic 的 Claude 被认为是处理编程任务的最佳模型,尤其是本月初发布的 Claude Opus 4.1,在真实世界编程、智能体以及推理任务上表现出色。其中在软件编程权威基准 SWE-bench Verified 测试中,Claude Opus 4.1 相较于前代 Opus 4 又有提升,尤其在多文件代码重构方面表现出显著进步。

来自主题: AI资讯
8652 点击    2025-08-27 18:09