如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)
7130点击    2024-12-21 10:57

大语言模型的推理困境


大语言模型(LLM)在自然语言处理领域取得了令人瞩目的成就,但在需要多步推理的复杂任务中仍面临严峻挑战。这一问题的核心在于,虽然LLM能够处理海量文本数据并生成流畅的回答,但在需要逻辑推理、因果分析和多步骤问题解决时往往表现不佳。这种局限性严重制约了LLM在金融分析、医疗诊断、法律推理等高要求场景的应用。


来自土耳其伊兹密尔理工大学(Izmir Institute of Technology)电气与电子工程系的研究者为多跳推理问题研究出了一个少样本的自动化推理框架。


如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)


如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)


研究评价:这是一项具有重要创新意义的研究工作。研究团队提出的AutoReason框架巧妙地解决了当前LLM在复杂推理任务中的关键痛点,具有以下突出优势:


  1. 技术创新:首次提出使用双层模型架构(强模型生成推理轨迹,弱模型执行推理),这种设计既保证了推理质量,又提高了框架的实用性
  2. 实践价值:通过自动生成推理轨迹的方式,有效降低了prompt工程的难度,使复杂推理任务的开发变得更加高效
  3. 开放共享:研究团队选择将成果开源(https://github.com/miralab-ai/autoreason)
  4. 实验验证:在StrategyQA等数据集上的测试结果显示,该方法能显著提升模型在复杂推理任务上的表现,证实了其实际效果。
  5. 论文地址:https://arxiv.org/pdf/2412.06975v1


虽然在计算资源消耗等方面还有优化空间,但这项研究为增强LLM的推理能力提供了一个富有启发性的思路,值得深入研究和实践应用。


如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)


思维链技术的演进


在解决LLM推理能力不足的问题上,研究界已经发展出了一系列基于思维链(Chain of Thought,CoT)的方法。这些方法大致可以分为三大类:


1.推理方案(Reasoning Schemes):


  • Tree of Thoughts:将推理过程构建为树状结构,支持多路径探索
  • Graph of Thought:通过图结构表示推理步骤之间的复杂关系
  • Skeleton of Thought:先生成推理框架,再并行填充细节
  • Recursion of Thought:采用递归方式处理复杂推理任务
  • Contrastive CoT:通过对比学习增强推理能力


2.LLM解码策略:


  • Greedy Decoding:每步选择最优输出
  • Sample Decoding:通过采样生成多样化结果


3.动态方法:


  • Active Prompt:主动学习优化提示模板
  • AutoCoT:自动生成思维链示例
  • Automate-CoT:自动化思维链生成
  • LM-Guided CoT:模型引导的思维链生成


然而,传统的CoT方法存在两个关键缺陷:首先,它需要人工精心设计示例,这不仅耗时耗力,还需要领域专家的参与;其次,这些固定的示例无法根据不同查询的特点动态调整,导致推理效果不够理想。正是在这样的背景下,AutoReason框架应运而生。


AutoReason的核心创新:从零样本到自动推理


技术原理突破


如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)


为了更好地理解AutoReason的创新,让我们通过一个具体的例子来说明不同推理方法的差异:


假设有这样一个问题:"一个书架有6个相同大小的层。第一层有14本推理小说,第二层比第一层多5本科幻小说,第三层有3本奇幻小说,第四层的言情小说比第五层的非虚构类书籍少2本,第五层有10本非虚构类书籍,第六层有10本漫画书。书架上总共有多少本书?"


1.直接推理(Zero-shot):


  • 模型直接给出答案:"书架上总共有95本书"
  • 没有展示推理过程,容易出错


2.零样本思维链:


  • 模型展示推理步骤:
  • 第一层:14本推理小说
  • 第二层:14 + 5 = 19本科幻小说
  • 第三层:3本奇幻小说
  • 第五层:10本非虚构类书籍
  • 第四层:10 - 2 = 8本言情小说
  • 第六层:10本漫画书
  • 总计:14 + 19 + 3 + 8 + 10 + 10 = 64本书


3.AutoReason方法:


  • 首先由强大模型(GPT-4)生成详细的推理轨迹:
  • 需要确定每层的书籍数量
  • 注意层与层之间的数量关系
  • 特别关注"比...多/少"的表述
  • 最后需要将所有数量相加
  • 然后由较弱模型(GPT-3.5)基于这些轨迹得出答案


这个例子清晰地展示了AutoReason如何通过分解推理步骤来提高准确性。


框架设计详解


如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)


AutoReason采用了精心设计的两阶段处理流程,其完整工作流程如下:


如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)


1.查询预处理阶段:


  • 接收零样本查询
  • 通过CoT提示模板进行格式化
  • 准备推理轨迹提取


2.推理轨迹生成阶段:


  • 使用GPT-4处理格式化查询
  • 生成详细的推理步骤
  • 确保推理轨迹的完整性


3.答案生成阶段:


  • 整合查询和推理轨迹
  • 构建最终答案提示
  • 使用较弱LLM生成答案


4.评分验证阶段:


  • 加载正确答案
  • 计算得分
  • 确定回答是否正确


数据集特点分析


研究团队选择的两个数据集各具特色:


1.HotpotQA数据集示例:


{
"question": "Were Scott Derrickson and Ed Wood of the same nationality?",
"answer": "yes",
"type": "comparison"
}
{
"question": "What government position was held by the woman who portrayed Corliss Archer in the film Kiss and Tell?",
"answer": "Chief of Protocol",
"type": "bridge"
}


这类问题主要考察模型从多个事实中提取和关联信息的能力。


2.StrategyQA数据集示例:以"James Clark Maxwell与银行通知有什么联系?"为例:


  • 需要理解Maxwell的电磁理论研究
  • 分析这些研究对通信技术的影响
  • 推断银行通知系统与电子通信的关系 这类问题需要深层的隐式推理能力。


实验设计与结果分析


严格的测试流程


研究团队采用了高度严谨的测试方法:


1.数据预处理:


  • 使用Fisher-Yates算法对数据集进行随机打乱
  • 确保采样的代表性


2.样本抽取:


  • 每次随机抽取20个问答对
  • 保持测试样本的多样性


3.评分机制:


  • 得分大于6分判定为正确
  • 小于6分判定为错误
  • 确保评估标准的一致性


4.结果验证:


  • 重复测试3次取平均值
  • 减少随机因素的影响


实验方法


研究团队采用了严格的实验设计来验证AutoReason的效果:


1.数据集选择:


  • StrategyQA:570多个需要隐式推理的问题,答案为是/否
  • HotpotQA:7000多个基于维基百科的多跳问答问题


2.测试流程:


  • 使用Fisher-Yates算法打乱数据集
  • 每次随机抽取20个问答对进行测试
  • 重复测试3次,取平均分
  • 分别测试基础模型、CoT方法和AutoReason的表现


3.评估指标:


  • 答案准确率
  • 推理过程的合理性
  • 计算资源消耗


实验结果详析


如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)


1.StrategyQA数据集上的表现:


  • GPT-3.5-Turbo:
  • 基础准确率:55.0%
  • CoT准确率:70.3%
  • AutoReason准确率:76.6%
  • GPT-4:
  • 基础准确率:71.6%
  • CoT准确率:76.6%
  • AutoReason准确率:91.6%


2.HotpotQA数据集上的表现:


如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)


  • GPT-3.5-Turbo:
  • 基础准确率:61.6%
  • CoT准确率:58.3%
  • AutoReason准确率:76.6%
  • GPT-4:
  • 基础准确率:73.3%
  • CoT准确率:63.3%
  • AutoReason准确率:71.6%


结果分析


1.性能提升分析:


  • AutoReason在复杂推理任务上显著优于基础方法和CoT
  • 对较弱模型的提升效果更为明显
  • 在某些简单任务上可能出现性能回退


2.特殊现象解释:


  • GPT-4在HotpotQA上的性能回退可能与问题特性有关
  • 简单事实查询可能不需要复杂的推理分解
  • 模型对不同类型问题的敏感度各不相同


工程实践指南


框架使用方法


1.环境准备:


  • 需要同时访问强大和较弱的LLM
  • 准备适当的API密钥和配置
  • 设置合理的超时和重试机制


2.提示模板配置:


export const autoReasonPrompt = ({ question }: { question: string }) => {
return 'You will formulate Chain of Thought (CoT) reasoning traces.
CoT is a prompting technique that helps you to think about a problem in a structured way.
It breaks down a problem into a series of logical reasoning traces.
...';
};


3.推理生成流程:


async function generateReasoning(query) {
const formattedQuery = formatQueryWithCoTPrompt(query);
const rationales = await generateRationalesWithGPT4(formattedQuery);
const finalPrompt = formatPromptForFinalAnswer(query, rationales);
return generateFinalAnswerWithWeakerLLM(finalPrompt);
}


最佳实践建议


1.推理分解技巧:


  • 确保每个推理步骤都是明确和具体的
  • 避免跳跃性思维,保持步骤间的逻辑连贯
  • 根据问题复杂度调整分解粒度


2.错误处理策略:


  • 设置合理的超时时间
  • 实现优雅的失败处理
  • 添加适当的重试机制


3.性能优化方法:


  • 使用异步处理提高并发性能
  • 实现结果缓存减少重复计算
  • 优化提示模板减少token消耗


未来发展方向


技术改进空间


1.计算效率优化:


  • 探索模型蒸馏技术减少计算开销
  • 研究并行处理方案提高效率
  • 开发更轻量级的推理生成方法


2.推理质量提升:


  • 设计更先进的质量评估机制
  • 引入人工反馈优化推理轨迹
  • 研究自适应的提示模板生成


3.应用范围扩展:


  • 探索在更多领域的应用可能
  • 开发领域特定的优化方案
  • 研究跨语言推理能力


研究展望


1.理论方向:


  • 深入研究推理能力的本质
  • 探索更优的推理分解方法
  • 研究模型协同的理论基础


2.应用方向:


  • 在更多实际场景中验证效果
  • 开发特定领域的优化方案
  • 探索商业化应用的可能性


结论


AutoReason框架通过创新的自动推理生成方法,有效解决了LLM在复杂推理任务中的瓶颈问题。它不仅显著提升了模型的推理准确率,还为实现可靠的AI推理能力提供了新的思路。虽然在计算效率和应用范围等方面还有待改进,但AutoReason的成功无疑标志着LLM向着更智能、更可靠的方向迈出了重要一步。


对于Prompt工程师而言,AutoReason提供了一个强大的工具和全新的思路,有助于构建更智能、更可靠的AI应用。通过合理运用这一框架,我们可以更好地发挥LLM的潜力,为用户提供更优质的服务。


参考文献


Sevinc, A., & Gumus, A. (2024). AUTOREASON: AUTOMATIC FEW-SHOT REASONING DECOMPOSITION. arXiv preprint.


Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., ... & Zhou, D. (2023). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.


Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. (2023). Large Language Models are Zero-Shot Reasoners.


Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.


Geva, M., Khashabi, D., Segal, E., Khot, T., Roth, D., & Berant, J. (2021). Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies.


文章来自于微信公众号“AI修猫Prompt”,作者“AI修猫Prompt”


如何让LLM的多步推理能力更可靠?用AutoReason少样本自动推理框架(附Prompt)

关键词: AI , 提示词 , Prompt , AutoReason
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0