刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分
刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分SWE-Bench上能拿72%的模型,换张考卷直接归零!Meta联合斯坦福、哈佛放出ProgramBench,200个项目从零手写,9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网,就有模型在36%的任务里跑去GitHub扒源码。
来自主题: AI技术研报
5902 点击 2026-05-07 12:03