只是换一下数学题的变量名称,大模型就可能集体降智??
斯坦福大学最新研究表明,在他们最新提出的Putnam-AXIOM测试集上,仅仅是更换一下原题目的变量名称、变量取值范围,模型的准确率就直线下降。
也就是说,大模型的数学推理能力并不是真正掌握了解题逻辑,很可能只是检索已存储的题目……
即使是表现最好的o1-preview,它的成绩也从50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也几乎是全军覆没。
要知道,模型推理能力的稳健性可是非常重要的指标,能代表他们是否真正掌握了解决方法:
有网友锐评到:o1的o不会是overfitting的o吧?(doge)
还有热心网友做了解释,他认为模型的搜索空间会随着深度指数级增长,搜索时间越长,搜索的难度也会更高。
LLM在复杂数学问题上的推理能力逐渐成为模型发展的关键挑战,然而现有的评估基准,如MMLU、MMMU、GSM8K和MATH等却面临着很多问题。
一方面,数据污染可能导致模型在评估中表现虚高,因为模型可能在训练过程中接触到了评估基准中的问题。
另一方面,最先进的模型在许多现有基准上已经达到或超过人类水平,这使得这些基准失去了应有的评估价值。
对此,斯坦福研究团队提出了Putnam-AXIOM基准,专用于评估模型在解决复杂数学问题上的能力。
该基准的原始数据集涵盖了1985-2023年William Lowell Putnam数学竞赛的236个问题。
随便举个例题大家感受一下:
这些题目涵盖了11个不同数学领域的问题,团队也进行了筛选,确保能产生便于自动化评估的\boxed{}答案。
同时,他们还借鉴MATH数据集的方法进行模型评估,并设计了一个等价函数,可以解决字符串不一致问题、和复杂的数学等价同质化问题。
除此之外,为防止模型在训练过程中遇到Putnam原问题而出现评估偏差,团队还引入了功能变异构建变异数据集。
变异分为变量变化(仅改变量名)和常数变化(修改数值属性)两类,能生成无限多相同难度的新问题,而且这些问题在互联网上没有现成的答案。
具体的变化形式就像这样:
在实验中,研究人员将1985-2023年的竞赛中的236个问题整理成标准化格式,使用LM Harness评估框架对多个开源模型的SOTA LLMs进行评估。
样本包括236个原始问题和52个变异问题,参与测试的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模型。
实验结果有些令人意外,模型们的表现都不太乐观。
首先来看看模型们在原始数据集上的表现。
多数模型的准确率都低于10%,曾获AI数学奥林匹克竞赛冠军的NuminaMath仅为4.66%,可见Putnam-AXIOM数据集难度真的很高。
而在变异数据集上,模型们的准确率则显著下降。
比如在原始数据集上表现最好的o1-preview,准确率为50%,而在变异数据集中则降到了33.96%。
也就是说,o1-preview模型在原始问题上表现可能虚高,之前的得分主要是依赖记忆而非真正的推理能力。
排名第二的Claude在原始数据集上的准确率为26.40%,而在变异数据集上的准确率降至18.86%,其他模型的分数也基本都下降了。
团队还进一步对OpenAI o1-preview和GPT-4o的答案进行了分析。
结果发现它们的错误都比较严重,在逻辑推理和数学严谨性方面存在着明显的缺陷。
下面一起康康几个例子。
比如o1-preview在解答问题时就没能提供充分的证明,它声称m的最大可能值是n,理由是m的上界是2n,但它没有说明为什么m的值介于n和2n之间不可行。
而GPT-4o则存在逻辑跳跃和不连贯的推理,比如在下面这道题中,它从逻辑上直接跳转到面积最小的几何形状是矩形这一观点,但并没有证明这一说法的合理性,而是将其默认为事实。
DeepSeek的模型也在关键步骤思维发生了跳跃,导致最终结果失误。
看来,提升大模型的数学能力还是任重道远呀!
不过斯坦福大学这篇文章中的Putnam-AXIOM基准的确缓解了现有基准饱和的问题。
它不仅为评估模型的数学推理能力提供了一个非常有挑战性的新方法,还实现了完全自动化评估、并提供了丰富多样的变体数据集。
团队也表示,虽然目前变体数据集生成过程复杂耗时,但未来如果能优化变体生成方法,将更有助于加速关于人工推理的研究。
论文:https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf
代码:https://anonymous.4open.science/r/putnam-axiom-B57C/README.md
文章来自于“量子位”,作者“奇月”。