
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。
来自主题: AI技术研报
6826 点击 2025-04-18 15:20
公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。
公考机构得跟AI抢生源了