AI资讯新闻榜单内容搜索-PaperBench

Claude 3.5首战复现21%顶会论文，人类博士无法取代，OpenAI：AI全是草台班子

自己「打脸」自己？

来自主题: AI技术研报

10735 点击 2025-04-03 16:23

PaperBench 是一个由 OpenAI 开发的基准测试，旨在评估 AI Agent 复现尖端 AI 研究的能力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。

来自主题: AI技术研报

9286 点击 2025-04-03 10:57

刚刚开源的新基准测试PaperBench，6款前沿大模型驱动智能体PK复现AI顶会论文，新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比，PaperBench更考验综合能力，不再是只执行单一任务。

来自主题: AI资讯

10725 点击 2025-04-03 10:37