本文的共同通讯作者为涂兆鹏和王瑞,涂兆鹏为腾讯专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过9000次。担任SCI期刊NeuroComputing副主编,多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。王瑞为上海交通大学副教授,研究方向为计算语言学。共同第一作者为上海交通大学博士生陈星宇、何志威,腾讯AI Lab高级研究员徐嘉豪、梁添。
本文将介绍首个关于 o1 类长思维链模型过度思考现象。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
背景与动机
自 OpenAI 发布 o1 模型以来,它超强的逻辑推理以及难题解决能力就引发了广泛关注。o1 模型通过模拟人类的深度思考过程,在思维链中运用如自我反思、纠错以及探索多种解法等推理策略,展现了强大的长时间推理(Inference-Time Scaling)性能。依靠这种机制,o1 模型能够不断优化自身的答案质量。然而,在 o1 成功的光环下,一个潜在问题逐渐被放大 —— 过度思考。
随着 o1 模型的问世,许多类似的模型也陆续出现,比如 Qwen 团队开源的 QwQ-32B-Preview [1] 以及 Deepseek 推出的 R1-Preview [2] 模型。这些模型在推理时同样具备 “深度思考” 的特性,但也暴露出了类似的问题:在不必要的情况下生成过长的思维链反而浪费了计算资源。举一个简单的例子,对于问题 “2+3=?”,不同模型的回答长度如下图所示:
传统模型的回答通常只需要极少的 token 就能给出答案,然而对于 o1 模型,其消耗的推理 token 直接达到了 200 以上。更极端的是,Deepseek-R1-Preview 和 QwQ-32B-Preview 的 token 消耗甚至达到了 900!为什么 QwQ 模型会产生如此之长的输出?研究团队进一步分析了 QwQ 对这个问题的答案,结果见下图右栏:
QwQ-32B-Preview 模型会在推理过程中尝试多种不同的解题策略。对于简单的加法问题,模型探索了直接使用数学计算、数轴移动模拟,以及类比数苹果等方法,经历了多轮推理后才最终确定结果。尽管这种思维链策略对于复杂问题的解答非常有帮助,但在应对简单问题时,反复验证已有的答案和进行过于宽泛的探索显然是一种计算资源的浪费。为了更好地研究这个问题,研究团队对这类 o1 模型的过度思考现象进行了更细致的定义和深入分析。
文章首先定义了模型回复中的独立解答(Solution):每当模型完整地得到一次对输入问题的答案(无论对错),这就被认为是一个独立解答。如例子所示,每一个解答都包含了答案 “5”。基于这个定义,研究人员在三个不同的数据集上统计了 Qwen-QwQ-32B-Preview 模型和 Deepseek-R1-Preview 模型的解答数量分布(解答的判断和抽取由 Llama-3.3-70B 模型完成):
其中,ASDIV [3] 是一个包含小学难度数学题的测试集,GSM8K [4] 是常用的初级难度数学题测试集,MATH500 [5] 是高中数学竞赛难度的测试集。如图所示,无论是对于 QwQ 模型还是 R1 模型,包含 2-4 个解答的样本占了所有样本的 70% 以上,可见这种 Solution-Level 的反思行为在当前的类 o1 模型中十分普遍。那么这些解答本身是否都是必须的呢?下图展示了在不同数据集上,模型首次得到正确答案的解答位置:
令人惊讶的是,对 QwQ 模型和 R1 模型的实验分析显示,它们在超 90% 的情况下,都能在第一次尝试中就成功输出正确答案。也就是说,后续多轮思考对答案正确率的提升几乎没有实质性贡献。这一现象进一步验证了此前对模型过度思考的观察:绝大多数情况下,模型的多轮反思可能只是在反复验证已有的答案,从而造成了资源浪费。
然而,这种现象也引发了不同观点的争论。一些研究者认为,o1 类模型的一个核心特性在于其能够自主探索问题的不同解法。从这一角度来看,如果模型在推理过程中使用了多种不同的思路来解决问题,那么这种多样化的探索不仅有助于加深模型对问题的理解,还体现了模型的自主探索能力,不应简单地视为 “过度思考”。为了更深入地剖析这一问题,研究团队进一步提出了一种分析方法。他们利用 GPT-4o 对模型的回答进行分类,具体包括以下步骤:
通过这一方法,研究者能够量化推理过程中是否存在真正意义上的 “多样化探索”。这种分析为我们提供了衡量模型行为的一种新视角:当模型的不同解答策略高度相似甚至重复时,可以说明多轮推理的贡献是有限的;而当推理策略的多样性伴随着思考层次的提升而增加时,则反映了模型对问题理解的进一步加深。这种视角能够帮助我们更准确地区分 “有效的自主探索” 和 “低效的重复推理”。如下图所示:
图中展示了每个位置的解答引入新推理思路的可能性。第一个位置的解答总会是 “新的思路”,因此其概率为 100%。但随着推理位置的后移,解答中带来新推理思路的可能性逐渐降低。这一趋势表明,越到后续位置,模型越倾向于重复先前的推理思路,从而导致其推理行为变得冗余且低效。从这个角度来看,模型的后续解答更多是一种无效的重复思考。
通过上述分析,我们可以发现这些过度思考所产生的解答往往具备以下两个关键特征:
从图中可以观察到,R1 模型在效率上略优于 QwQ 模型,但两个模型都不同程度地暴露出 “过度思考” 的问题。对于难度最低的等级 1 问题,研究者发现两个模型的表现都有如下特点:
从以上分析可见,现有的 o1 类模型都普遍存在不同程度的 “过度思考” 现象,且这一问题在应对简单任务时尤为严重。这些现象突显了当前 o1 类模型推理机制中的不足,也意味着在模型的长思维链优化和推理资源分配方面仍有较大的改进空间。为此,研究者们提出了几种方法,旨在缓解模型的过度思考现象,提升推理效率。
由于目标是减少模型的过度思考但不损害模型的推理能力,因此最直接的想法就是通过偏好优化算法来鼓励模型生成更精简的回复。研究者们使用开源的 Qwen-QwQ-32B-Preview 模型作为实验的基座模型,基于该模型在 PRM12K [10] 的数据集上的多次采样结果,选择最长的模型回复作为偏好优化的负样本,而对于正样本的选择,有如下几种策略:
基于以上几种偏好数据,研究者们尝试了最基础的 SFT 以及多种偏好优化算法,如 DPO [6],RPO [7][8] 以及 SimPO [8]。实验结果如下:
表格中的 SFT 方法是指仅使用正样本进行微调。从表格中可以看出,在同样的 “最短回复” 设置下,SimPO 有着最好的优化效果,而基于 SimPO 的进一步实验表明,使用首个正确回答 + 验算作为正样本的策略能够很好地取得效率和性能的平衡,能够在保持模型性能的同时大幅度地减少输出的 token 数目以及平均解答轮数,并有效地提高产出效率和过程效率。为了进一步分析方法的有效性,研究者们分析了 MATH500 测试集的不同难度下 SimPO+FCS+Reflection 方法的表现,如下图所示:
有意思是,文中提出的方法在最简单的难度 1 的问题上,仅使用了相比于原来 63.6% 的 token 数目便达到了 100% 的正确率,而且在难题(难度 4 和 5)上,文中的方法能够在提升性能的同时大幅度减少输出的冗余,这展示了提出的方法在减缓过度思考上的有效性。
这篇论文聚焦于 o1 类推理模型面临的一个核心挑战:如何合理控制推理过程中的计算量,提升思考效率。文章通过分析实验揭示了一个普遍问题 ——o1 类模型在处理简单问题时容易陷入过度思考,从而增加了不必要的计算消耗。基于对此现象的详细分析,研究者提出了一系列有效的优化方法,能够在保持模型性能的同时,大幅减少冗余推理,提升推理效率。这些方法的实验结果表明,它们显著优化了模型在简单任务上的资源利用情况,为实现 “高效思考” 的目标迈出了重要一步。未来的研究将重点探索以下方向:
这项研究不仅提升了 o1 类模型的推理,同时也为未来更高效、更智能的推理机制提供了重要的理论基础与实践参考。
参考文献
[1] Qwen. Qwq: Reflect deeply on the boundaries of the unknown, November 2024. URL https: //qwenlm.github.io/blog/qwq-32b-preview/.
[2] DeepSeek. Deepseek-r1-lite-preview: Unleashing supercharged reasoning power. https://api-docs.deepseek.com/news/news1120, 2024. Accessed: 2024-12-29.
[3] Shen-Yun Miao, Chao-Chun Liang, and Keh-Yih Su. A diverse corpus for evaluating and developing english math word problem solvers. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.
[4] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. arXiv:2110.14168, 2021.
[5] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the MATH dataset. In NeurIPS, 2021.
[6] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.
[7] Richard Yuanzhe Pang, Weizhe Yuan, He He, Kyunghyun Cho, Sainbayar Sukhbaatar, and Jason E Weston. Iterative reasoning preference optimization. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=4XIKfvNYvx.
[8] Zhihan Liu, Miao Lu, Shenao Zhang, Boyi Liu, Hongyi Guo, Yingxiang Yang, Jose Blanchet, and Zhaoran Wang. Provably mitigating overoptimization in rlhf: Your sft loss is implicitly an adversarial regularizer. arXiv preprint arXiv:2405.16436, 2024.
[9] Yu Meng, Mengzhou Xia, and Danqi Chen. Simpo: Simple preference optimization with a referencefree reward. In Advances in Neural Information Processing Systems (NeurIPS), 2024.
[10] Hunter Lightman, Vineet Kosaraju, Yuri Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, and Karl Cobbe. Let’s verify step by step. In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum? id=v8L0pN6EOi.
文章来微信公众号“机器之心”
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner