To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

8731点击 2024-06-08 19:59

大语言模型产生幻觉、胡说八道的问题被诟病，已经不是一天两天了。

前有ChatGPT编造法律案件，后有谷歌搜索建议披萨放胶水。

就连号称模型更安全、幻觉更少的Claude系列，在Reddit上也能看到不少吐槽。

LLM输出虚假信息的问题，似乎并不能在短时间内彻底解决。

这就给很多场景下的应用带来了巨大的障碍，尤其是法律、医疗、学术这样比较严谨的知识领域。如果答案有错，还不如不用。

那么能不能有一种方法，至少为LLM的输出划定一个置信区间呢？

6月5日，DeepMind发表了一篇名为「To Believe or Not to Believe Your LLM」，就开始着手解决这个问题。

如果无法强迫LLM坚持输出真实信息，知道它什么时候在胡说八道也很重要。

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

论文地址：https://arxiv.org/abs/2406.02543

这篇论文由DeepMind Foundations团队出品，带头人是加拿大阿尔伯塔大学教授Csaba Szepesvari，他也是这篇论文的作者之一。

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

论文探讨了大语言模型中的不确定性量化问题，也就是说，旨在确定LLM的响应何时会出现较高的不确定性。

不确定性分为两个范畴，一个是认知不确定性（epistemic uncertainty），另一个是偶然不确定性（aleatoric uncertainty）。

前者是指对基本事实的不了解，比如，不清楚事实或者语言不通所造成的不确定性，可能来源于训练数据量或者模型容量不足。

后者则是一种不可约的随机性，比如同一个问题存在多种可能的答案。

LLM的工作本质是对文本的概率分布进行建模，因此会很自然地通过统计不确定性的视角看待问题的真实性。

以前的许多工作通过启发式的方法计算LLM回答的对数似然性，但这一般只适用于偶然不确定性较低的情况，也就是有「标准答案」的问题。

对于有多个正确答案的问题，需要将认知不确定性和偶然不确定性解耦。

因此，团队推导出了一种信息论度量（information-theoretic metric）方法，能可靠地检测出认知不确定性占多数的情况，这时我们就可以说，模型的输出没有那么可靠，Not to Believe！

这种方法根据什么来计算？

其实，可以完全基于模型的输出来考察，只需根据之前的回答进行一些特殊的迭代prompting即可。

有了这个量化方法，无论是面对有单一答案的问题，还是有多个可能答案的问题，都可以检测出回答中的幻觉，也就是认知不确定性很高的情况。

这和此前的不确定性量化策略相比，形成了鲜明对比，因为之前的方法都不能检测出多答案情况下的幻觉。

DeepMind Foundations团队进行了一系列实验，证明了他们方法的优势。

此外，研究还揭示了如何通过迭代prompting放大LLM指定给定输出的概率，这可能会引起人们的兴趣。

方法概述

首先，我们需要形成这样一个共识：

如果从基本事实（语言）中获得对同一查询的多个回复，那么它们应该是相互独立的。

也就是说，在概率论解释中，对于一个固定的查询，这些多个回复的联合分布必须是一个乘积分布。

基于这一点，我们就可以将其用于衡量LLM的输出与基本事实之间的距离。

由语言模型实现的序列模型允许我们构建多个响应的联合分布，基于LLM先前的响应和概率链规则，对LLM进行迭代prompting。

具体来说，先给定查询要求模型提供一个响应，然后将查询和相应输入给LLM，要求提供另一个响应，然后给定查询和前两个响应提供第三个响应，依此类推。

关键思路是，在对LLM进行迭代prompting的过程中，激发模型重复潜在回答，可以观察到不同的行为模式，反映不同程度的认知不确定性。。

如果模型对某个查询的认知不确定性较低，那么在prompting中重复一个不正确的回答不会显著增加其概率。

但是，如果认知不确定性较高，重复一个不正确的回答就会大大增加其概率。

下面是这一过程的prompt模板：

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

不断诱导LLM

下面的例子可以更好地解释这一过程——

给定问题：「英国的首都是什么？」通过在提示中重复错误答案（如巴黎），正确答案伦敦仍然保持很高的概率。

这意味着该模型的答案是确定的，它的认知不确定性较低。

相反，如果答案的概率发生了变化，那么模型就具有高度的认识不确定性。

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

如上图最左边的示例所示，当我们将错误回答的重复次数增加到100次的时候，正确回答「伦敦」的条件归一化概率从100%下降到大约 96%。

在这些示例中，最初对查询的回答的认识不确定性较低，即使在错误信息重复出现的情况下，正确回答的概率仍然很大。

可是当面对更有挑战性的问题时，模型就不那么容易「坚持己见」了。

比如，问LLM「爱尔兰的民族乐器是什么？」，它回答「竖琴」和「尤利安管」的概率都很大（第一个答案是正确答案）。

这一次，通过多次在提示中加入错误的回答，正确答案的概率迅速下降到接近于零。

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

认知不确定性度量

在对LLM进行完上述观察，研究者推导出了一种信息论度量方法。

通过测量模型的输出分布对重复添加以前的（可能不正确的）提示回答的敏感程度，来量化认知不确定性。

更确切地说，如果LLM对之前的回复不敏感，模型就有了所需的独立性，并且LLM得出的联合分布可以任意接近基本事实。

如果正相反，上下文中的响应严重影响了模型的新响应，那么直观地说，LLM对其参数中存储的知识的置信度很低，因此LLM派生的联合分布不可能接近基本事实。

这一观察结果可用于区分高不确定性的两种情况：一种是偶然不确定性高，另一种是认知不确定性高。

最后，利用这一指标，论文介绍了一种基于互信息分数的幻觉检测算法M.I.。

通过应用链式规则，他们定义了多个响应的「伪联合分布」，同时将之前的响应纳入提示。

这种伪联合分布的互信息可作为认知不确定性的下限。互信息的估计值可用作得分，表示LLM对给定查询产生幻觉的信念强度。

结果

论文在开放域问答基准上让Gemini 1.0 Pro进行闭卷回答，对这种基于互信息（MI）的方法进行了评估，包括TriviaQA、AmbigQA以及基于WordNet创建的一个多标签数据集。

实验中共使用了3种基线方法作为对比：T0表示贪婪方法选择的LLM回答，S.E.表示使用2023年提出的「语义熵」方法（semantic-entropy）选择的前10个回答，S.V.表示2022年提出的「自我验证」方法（self-verification）的一个版本。

对LLM的回答主要使用两个方面衡量，一是准确率，二是召回率。

准确率表示查询中正确决策的百分比，召回率则表示没有弃权的查询的百分比。

结果表明，与基线方法相比，该方法能有效检测幻觉（认识不确定性较高的输出），尤其是在处理包含单标签和多标签查询的数据集时。

在TriviaQA和AmbigQA数据集上，论文提出的M.I.方法与S.E.方法基本表现相当，但明显优于T0和S.V.。

而后两个数据集包含大量的高熵、多标签查询，此时M.I.方法明显优于S.E.方法。

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

将LLM输出回答的熵进行分区后，分别查看两种方法的召回率和错误率，可以更直观地看到M.I.方法在高熵查询中的优越性能，不仅很少犯错误，而且召回值更高。

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

这篇论文相对于考虑LLM整体不确定性的一阶方法，将认知不确定性和任意不确定性分开考量，从而确定了LLM认知不确定性的可证明的下界。

此外，在认知不确定性视角下提出的基于互信息的弃权方法，能让LLM在混合单标签/多标签查询任务上取得更好的表现。

文章来源于“新智元”，作者“新智元”

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

关键词: DeepMind , LLM , AI , 幻觉 , 大模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0