AI资讯新闻榜单内容搜索-SWE-bench

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: SWE-bench
北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA

北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA

北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA

近日,一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究,提出了一种名为「SWE-Swiss」的完整「配方」,旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的 32B 参数模型 SWE-Swiss-32B,在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率,在同尺寸级别中达到了新的 SOTA。

来自主题: AI技术研报
6539 点击    2025-08-08 10:43
伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

新晋AI编程冠军DeepSWE来了!仅通过纯强化学习拿下基准测试59%的准确率,凭啥?7大算法细节首次全公开。

来自主题: AI技术研报
7586 点击    2025-07-07 15:46
不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜

不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜

不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜

Agentless+开源模型,也能高质量完成仓库级代码修复任务,效果媲美业界 SOTA 。

来自主题: AI技术研报
9019 点击    2025-06-27 16:30
Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿

Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿

Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿

昨天深夜,月之暗面发布了开源代码模型Kimi-Dev-72B。这个模型在软件工程任务基准测试SWE-bench Verified上取得了60.4%的成绩,创下开源模型新纪录,超越了包括DeepSeek在内的多个竞争对手。

来自主题: AI资讯
6641 点击    2025-06-18 11:20
Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源

Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源

Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源

深夜,沉寂已久的Kimi突然发布了新模型—— 开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。

来自主题: AI资讯
9261 点击    2025-06-17 11:34
扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进,变得更为高效且价格更为亲民。在评估现实世界软件工程任务(如 SWE-Bench)时,模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报
6242 点击    2025-06-09 10:25
谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

随着 AI 能力的提升,一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和,比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。

来自主题: AI技术研报
4965 点击    2025-02-28 14:48
解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

解决真实GitHub Issue的基准测试,字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench,一个由普林斯顿大学提出的极具挑战性的Benchmark,近期受到工业界、学术界和创业团队的广泛关注。

来自主题: AI技术研报
5138 点击    2024-11-04 15:29