GPT-5.5反杀Claude登顶,AI编码旧榜不准了?
GPT-5.5反杀Claude登顶,AI编码旧榜不准了?一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。
来自主题: AI资讯
8352 点击 2026-05-28 10:51
搜索
一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。
新晋AI编程冠军DeepSWE来了!仅通过纯强化学习拿下基准测试59%的准确率,凭啥?7大算法细节首次全公开。