AI资讯新闻榜单内容搜索-SWE-bench

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: SWE-bench
扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进,变得更为高效且价格更为亲民。在评估现实世界软件工程任务(如 SWE-Bench)时,模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报
5282 点击    2025-06-09 10:25
谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

随着 AI 能力的提升,一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和,比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。

来自主题: AI技术研报
3791 点击    2025-02-28 14:48
解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

解决真实GitHub Issue的基准测试,字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench,一个由普林斯顿大学提出的极具挑战性的Benchmark,近期受到工业界、学术界和创业团队的广泛关注。

来自主题: AI技术研报
4352 点击    2024-11-04 15:29
OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

一直以来,大模型的编程能力都备受关注,超强 AI 程序员 Devin 的问世更是将「AI 能否替代程序员」这一话题推上了风口浪尖。最近,Devin 也迎来了新对手 —— 初创公司 Cosine 推出的自主 AI 程序员 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。

来自主题: AI资讯
7382 点击    2024-08-14 17:29
登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

自从 Devin(首个全自动 AI 软件工程师)提出以来,针对软件工程的 AI Agent 的设计成为研究的焦点,越来越多基于 Agent 的 AI 自动软件工程师被提出,并在 SWE-bench 数据集上取得了不俗的表现、自动修复了许多真实的 GitHub issue。

来自主题: AI技术研报
2222 点击    2024-07-15 14:06
GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星

GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星

GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星

用GPT-4打造的AI程序员,结果轻松追平Devin!普林斯顿打造的开源SWE-agent,直接开箱即用——修复GitHub存储库中真实bug。在25%的SWE-bench测试集上,它实现了与Devin相似的准确度—— 解决了12.29%的问题。

来自主题: AI技术研报
8255 点击    2024-04-03 14:40