DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

3316点击 2025-01-06 13:39

引言：从相关性到因果性的挑战

在人工智能领域，大语言模型（LLMs）展现出了令人惊叹的能力，但在因果推理这一人类智能的核心能力上仍面临重大挑战。特别是在从相关性信息推断因果关系这一任务上，现有的大语言模型表现出明显的不足。这不仅涉及模型的推理能力，更关系到AI系统在现实世界中的可靠性和可解释性。谷歌DeepMind团队最新发表的研究《Prompting Strategies for Enabling Large Language Models to Infer Causation from Correlation》为这一难题提供了创新的解决方案，通过精心设计的提示策略显著提升了大语言模型的因果推理能力。

图片由公众号平台AI配图生成

DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

研究背景：因果推理的重要性与挑战

在日常生活和科学研究中，我们经常遇到这样的情况：两个事件之间存在相关性，但究竟是否存在因果关系，以及因果关系的方向如何，往往并不容易判断。例如，"冰淇淋销量与鲨鱼袭击事件相关"这一观察，并不能直接推断出"冰淇淋销量导致鲨鱼袭击"或相反的因果关系。这种从相关性到因果性的推理，需要严谨的逻辑分析和丰富的背景知识。

对于大语言模型来说，这一任务更具挑战性。虽然模型可能在训练数据中接触过大量的相关性描述，但要准确推断因果关系，需要理解和运用复杂的因果推理规则。先前的研究表明，即使是最先进的大语言模型在这类任务上的表现也不尽如人意。这一局限性严重影响了模型在科学研究、决策支持等领域的应用。

大语言模型的因果推理研究现状

近年来，关于大语言模型因果推理能力的研究主要集中在以下几个方向：

1.常识性因果知识评估

Kıcıman等人（2023）研究了大语言模型作为因果关系知识库的潜力
Willig等人（2022）和Zečević等人（2023）对模型的因果知识进行了批判性分析
Zhang等人（2023）探索了模型在领域特定因果关系中的表现

2.形式化因果推理能力

Jin等人（2023）提出CLADDER基准测试，评估模型的纯因果推理技能
Long等人（2022）研究了模型在因果图构建中的表现
Vashishtha等人（2023）探索了LLM指导下的因果发现方法

3.提示策略研究

Wei等人（2022）提出的思维链（Chain-of-Thought）提示方法
Zhou等人（2023）开发的最少到最多（Least-to-Most）提示策略
Khot等人（2023）提出的任务分解提示方法

现有方法的局限性

1.知识依赖问题

过度依赖训练数据中的因果知识
难以处理未见过的因果关系
缺乏系统的推理能力

2.推理能力限制

难以区分相关性和因果性
对复杂因果链的理解有限
推理过程缺乏透明度

3.方法论挑战

缺乏统一的评估标准
现有基准测试覆盖不全面
实际应用场景适应性不足

创新方法：PC-SUBQ提示策略

PC-SUBQ策略通过系统化的子问题分解方法来增强大语言模型的因果推理能力。图1展示了该策略的8个固定子问题框架，这些子问题被精心设计用于引导模型进行系统化的因果推理。

DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

理论基础

PC-SUBQ策略的设计基于两个重要的理论基础：

1.PC算法原理

基于条件独立性检验
从无向图开始逐步构建因果图
通过V型结构识别因果方向

2.认知任务分解理论

复杂任务的系统化分解
渐进式推理链构建
基于中间结果的验证机制

详细实现步骤

下图展示了PC-SUBQ方法的具体示例应用，通过实例说明了如何使用这些子问题进行因果推理：

DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

1.初始化阶段

[Premise]. Can you initialize the PC algorithm with a fully connected undirected graph?

Reasoning: Since our variables are A,B,C => the initial fully connected undirected graph is (A,B), (A,C), (B,C).

Answer: (A,B), (A,C), (B,C)

2.边缘删除阶段

[Premise]. Given the initial fully connected graph: [Answer to SubQ1]. Can you apply the first step of the PC algorithm to infer the undirected graph between the variables?

Reasoning: We start with the given fully connected graph...

3.路径识别阶段

Given the undirected graph: [Answer to SubQ2]. Can you find all paths of length 2?

Reasoning: We go through all unordered pairs of edges...

4.V型结构识别

Given the paths of length 2: [Answer to SubQ3]. Can you find all possible v-structures?

Reasoning: We go through all paths of length 2...

每个步骤都包含：

明确的输入输出定义
详细的推理过程说明
与前序步骤的关联机制
验证和纠错机制

提示模板设计

研究比较了5种不同的提示策略，如下图所示，PC-SUBQ相比其他策略展现出明显优势：

DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

1.基础模板结构

[Context Information]

Question: [Specific Task Description]

Reasoning: [Step-by-step Logic]

Answer: [Structured Output]

2.示例选择策略

简单到复杂的渐进式示例
覆盖关键边界情况
体现推理过程的完整性

3.上下文管理机制

动态信息传递
错误状态追踪
结果验证机制

数据分析与实验结果

数据集特征

CORR2CAUSE测试集的主要特点：

总样本量：2246条测试数据
正样本比例：15.23%
变量数量分布：2-6个变量
因果关系类型：直接因果、中介效应、共同原因等

详细实验结果

1.模型性能对比（F1分数）

下图展示了不同模型在PC-SUBQ策略下的性能表现：

DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

Gemini Pro 1.0：0.58
Gemini Ultra 1.0：0.62
PaLM 2 L：0.64
GPT-3.5-turbo：0.56
GPT-4-turbo：0.66

2.不同复杂度场景的表现

如下图所示，随着问题复杂度增加，模型性能呈现一定的下降趋势：

DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

2-3变量场景：平均准确率95%
4变量场景：平均准确率87%
5-6变量场景：平均准确率76%

3.因果关系类型分析

直接因果关系：F1分数0.72
中介效应：F1分数0.68
共同原因：F1分数0.65

鲁棒性测试结果

1.变量重命名测试

原始性能：F1分数0.64
重命名后：F1分数0.63
性能下降幅度：1.56%

2.表达方式变化测试

原始表达：F1分数0.64
改写表达：F1分数0.61
性能下降幅度：4.69%

3.自然语言场景测试

标准场景：F1分数0.64
自然语言：F1分数0.62
性能下降幅度：3.13%

突破性成果：鲁棒性与泛化能力

研究的一个重要发现是PC-SUBQ策略展现出优秀的鲁棒性和泛化能力。如下图所示，该策略在不同表达方式和自然语言场景中都表现出色：

DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

具体表现在以下几个方面：

1.变量重命名鲁棒性：即使将变量名从A、B、C改变为Z、Y、X，模型的性能也没有显著下降。这表明模型真正理解了因果推理的本质，而不是简单记忆训练数据中的模式。

2.表达方式重构：当使用不同的语言表达相同的因果关系时（例如，将"导致"改为"影响"），模型仍能保持稳定的表现。这说明策略捕捉到了因果关系的本质特征，而不是依赖于特定的语言表达。

3.自然语言场景适应：即使在处理真实世界的自然语言描述时（如"食用垃圾食品与肥胖的关系"），模型也能准确推断因果关系。这种泛化能力对于实际应用极其重要。

技术细节：实现过程解析

为了帮助Prompt工程师更好地理解和应用这一方法，下面详细解析PC-SUBQ策略的实现过程：

1.提示链设计每个子问题的提示都包含三个关键部分：

问题描述：明确定义当前步骤的目标
推理过程：要求模型展示推理步骤
答案格式：规定输出的具体形式

2.上下文管理

仅传递必要的前序信息，避免上下文过载
保持推理链的连贯性
确保每个步骤的输出可以作为下一步骤的有效输入

3.示例选择

每个子问题备1-4个示例
最后的因果验证步骤使用11个多样化示例
示例涵盖不同复杂度的情况

性能分析与应用价值

研究结果显示，PC-SUBQ策略在多个维度上都表现出色：

1.准确性提升

PaLM 2模型的F1分数从0.30提升到0.64
准确率达到88.7%
在所有测试模型上都实现了显著改进

2.效率优化

通过任务分解降低了问题复杂度
每个子步骤都有明确的目标和评估标准
减少了无效推理的可能性

3.可解释性增强

推理过程透明可见
错误可追踪到具体步骤
便于调试和改进

实践启示与建议

基于研究结果，对Prompt工程师提出以下实践建议：

1.提示策略设计

将复杂任务分解为可管理的子任务
为每个子任务提供清晰的示例
确保子任务之间的逻辑连贯性

2.错误处理

实现错误追踪机制
在关键步骤添加验证逻辑
设计回退策略

3.性能优化

控制上下文长度
优化示例选择
调整提示模板

局限性

尽管PC-SUBQ策略取得了显著成果，研究团队也指出了一些局限性和未来的研究方向：

1.当前局限

推理时间较长（需要16次模型调用）
在变量数量较多时性能下降
中间步骤缺乏定量评估

2.改进方向

优化推理效率
增强复杂场景处理能力
开发更多自然语言场景测试集

3.潜在应用

科学研究辅助
决策支持系统
自动化因果分析

结论

PC-SUBQ策略的成功表明，通过精心设计的提示策略，可以显著提升大语言模型的因果推理能力。这一突破不仅推进了AI系统的认知能力，也为Prompt工程师提供了有价值的实践指导。随着这一领域的持续发展，我们有理由期待更多创新方法的出现，进一步提升AI系统的因果推理能力。

对于Prompt工程师来说，这项研究提供了一个重要的启示：复杂的认知任务可以通过合理的任务分解和精心设计的提示策略来实现。

文章来自于“AI修猫Prompt”，作者“AI修猫Prompt”。

DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

关键词: AI , 提示词 , DeepMind , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

DeepMind重磅，用PC-SUBQ提示策略让LLM从相关性推断因果关系

引言：从相关性到因果性的挑战

研究背景：因果推理的重要性与挑战

相关工作综述

大语言模型的因果推理研究现状

现有方法的局限性

创新方法：PC-SUBQ提示策略

理论基础

详细实现步骤

提示模板设计

数据分析与实验结果

数据集特征

详细实验结果

鲁棒性测试结果

突破性成果：鲁棒性与泛化能力

技术细节：实现过程解析

性能分析与应用价值

实践启示与建议

局限性

结论