本篇工作已被 NeurIPS(Conference on Neural Information Processing Systems)2024 会议接收,并被评为 Oral Presentation (72/4553) 。该文章的第一作者陈麒光,目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。
该研究主要提出了推理边界框架(Reasoning Boundary Framework, RBF),首次尝试量化并优化思维链推理能力。
什么是思维链(Chain-of-Thought, CoT)?
近年来,大型语言模型(LLMs) 在处理各种复杂任务中取得了长足进展,从文本生成到问题解答,LLMs 几乎无所不能。然而,面对复杂的推理任务,LLMs 也存在瓶颈 —— 模型往往容易跳过推理的中间步骤,直接生成最终答案,这使得它们在应对复杂问题时容易犯错。
思维链推理(CoT) 是一种让模型分步推理复杂问题的方法。与传统模型的直接生成答案不同,CoT 通过逐步细化问题的每一步,从而得到更准确、更有逻辑的结果。
为什么它如此重要?
为什么 CoT 很重要?因为面对复杂的推理任务,模型往往会因为信息量大、推理路径复杂而犯错。CoT 的逐步推理策略使模型能够处理更具挑战性的任务 —— 从数学题解到现实决策问题,它能帮助模型分解任务,找到每个步骤的最佳解法。
这不仅提升了模型的准确性,还显著增强了它处理复杂任务的能力,使其能够应用于更广泛的实际场景中。
想象这样一个情景 :你正在处理一个复杂的项目,需要模型综合多种能力,最终通过多步推理找到最优解决方案,那么这些能力和推理能力是如何组合,共同影响并改进最终性能的呢?
为了解决该问题,该文章通过研究以下几个问题来理解和解决这个问题。
2.1 模型在面对复杂推理时,如何对推理能力进行量化?
当前多数研究依赖定性分析,缺乏统一的量化指标来系统比较不同的 CoT 推理方法。这种局限性导致研究者难以精确评估和预测模型在复杂任务中的推理能力上限,阻碍了对 CoT 推理效果的深入理解和科学验证。
为此,研究人员提出推理边界框架(Reasoning Boundary Framework, RBF),定义了模型在不同准确率对于的推理能力边界。并提出了三种推理边界以量化推理能力边界:完全可行推理边界(CFRB);完全不可行推理边界(CIRB); 部分可行推理边界(PFRB)。
2.2 推理能力与不同的其他能力如何组合?
在实际场景中,模型往往需要集成多种能力才能有效地解决某一任务。
为了定量描述如何通过思维链 CoT 机制实现多种能力的协同提升,研究者进一步提出了 “ 推理边界的组合律 ”,并推导并验证了该组合律的具体公式。
2.3 如何基于可解释性框架优化思维链?
虽然已有研究揭示了 CoT 推理的部分机制,但如何系统性地优化 CoT 推理的效率和效果仍缺少明确的策略与方法指导。这一不足限制了 CoT 技术在实际应用中的进一步改进与拓展。
根据推理边界框架,本文提出了最短可接受推理路径(MARP) 优化推理效率。无论是在复杂的数学推理还是多跳推理中,RBF 都能帮助模型在海量信息中找到最优路径,大幅提升推理效果。
3.1 推理边界
为了量化大型语言模型的复杂推理能力,如图 1 (a) 所示,研究者引入了推理边界(Reasoning Boundary, RB) 的概念,定义了 LLMs 在特定推理过程中能够处理的任务难度上限。
具体而言,RB 被定义为模型 m 和任务 t 作为问题难度 d 的最大值,模型的准确性达到预定义阈值:
其中 Acc (t|d, m) 表示模型在难度为 d 的任务 t 上的准确率。难度可以通过推理步骤数或计算复杂度等因素来衡量。简而言之,RB 反映了模型在保持一定准确性(accuracy)的前提下,其推理能力的边界。
* 为了简洁起见,在后续文章中将 RB 表示为。
总结:模型的推理边界是由其针对给定任务难度实现特定准确度的能力来定义的。
3.2 推理边界间的组合律
5.1 推理边界存在性验证
研究者们通过实证分析,验证了推理边界在三类任务中的普遍性:
在基础算术运算中,呈现出三种不同的推理边界 (图 2 (a));
在自然语言规划任务中,同样展现出三种不同的推理边界 (图 2 (b));
在代码规划任务中,仍然表现出一致的三种推理边界 (图 2 (c))。
5.2 推理边界组合律验证
在实际应用中,模型通常需要集成多种能力才能高效解决复杂任务。为此,研究者们进一步地验证了实际场景中,推理边界组合律的广泛适用性:
5.3 不同推理边界的不同性质
研究者验证了不同推理边界在模型中的性质:
为了进一步优化思维链的表现,研究者们提出了基于推理边界优化的多种策略,并对这些策略进行了全面的实验验证,揭示了如何通过调整 RB 提升复杂任务中的推理能力。
6.1 推理边界优化策略
6.2 推理路径优化策略
7.1 模型扩展验证
7.2 任务扩展验证
更进一步地,该研究不仅验证了在数学运算、数学推理和多跳问答任务中的推理边界扩展规律,还进一步探索了在多语言推理和医疗推理任务中的表现。
为了深入理解当前最先进的大型语言模型 o1,研究人员利用推理边界框架对 GPT 系列模型进行了全面评估。
如图 11 所示,与早期版本相比,各项推理边界指标均有显著提升,模型性能也随之增强。特别是,尽管 GPT-3.5 与 GPT-4o 之间在 完全不可行推理边界(CIRB) 上的改进幅度较大,但 完全可行推理边界(CFRB) 的提升相对较小。然而,在 GPT-o1 版本中,完全可行推理边界的表现则有了显著改善。
进一步来看,图 14 揭示了 GPT-o1 版本在完全可行推理边界上的卓越表现,提升幅度几乎是其他模型的三倍。
研究人员认为,这一成果主要归功于逻辑强化学习技术的进步和 Inference Scaling Law 策略的优化。这些新策略在提升完全可行推理边界方面起到了关键作用,远远超越了常规的改进路径。这一现象可能为未来研究提供了新的方向和启示。
本研究提出了一个推理边界(RB)框架,系统量化并优化大语言模型(LLMs)在思维链(CoT)任务中的推理能力边界。通过定义推理边界和应用优化策略,合理解释了多个 CoT 策略其在推理性能上的优势。同时,最短可接受推理路径(MARP)策略通过减少不必要的推理步骤,显著提高了不同任务中的推理性能与效率。研究者希望 RB 框架能够为相关研究提供理论基础,推动 LLMs 在复杂推理任务中的发展。
文章来自于微信公众号“机器之心”
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner