
FaithLens 模型在忠实性幻觉检测任务上,达到了当前最优效果。
大语言模型的能力在不断增强,但幻觉问题仍然是横亘在现实应用前的一道关键障碍。
即便在有文档和检索结果作为依据的情况下,模型仍可能生成与事实不符、缺乏依据甚至与原文相矛盾的内容,而且表达通常流畅、自洽,不易被发现。这对法律、医疗、金融、检索增强生成等对可靠性要求极高的场景带来了明显风险。
虽然业内不断通过“做更大的模型”“更复杂的检索”“更强的安全对齐”等方式来缓解问题,但成本与算力需求持续攀升,而幻觉为何产生、如何系统检测与解释,依然缺乏有效答案。
在这样的背景下,清华大学孙茂松团队联合深言科技提出了新论文《FaithLens: Training Large Language Models to Detect Hallucinations with Useful Explanations》。这项工作不再把幻觉检测看成简单的对错分类,而是把它提升为对模型推理过程与证据一致性的整体评估。
FaithLens 的核心思路是:模型不仅需要判断是否存在幻觉,还要生成清晰、具体、真正能帮助另一个模型做出正确判断的解释,并把这种“解释是否有用”直接作为训练信号来优化模型。
为此,研究团队设计了一套结合监督微调和强化学习的训练框架,通过合成数据、解释过滤和奖励机制,使模型在给出结论的同时,也学会说明依据在哪里、推理是怎么来的。实验表明,在这一范式下,仅 8B 参数规模的模型,就在多个跨领域幻觉检测任务上超过多款闭源大模型,同时在解释质量与推理一致性方面取得明显优势。

论文地址:https://arxiv.org/pdf/2512.20182
这项工作的核心实验结果表明,研究团队提出的 FaithLens 模型在忠实性幻觉检测任务上达到了当前最优甚至超过闭源大模型的效果。
所谓忠实性幻觉,是指大语言模型在给定文档或检索信息的基础上生成了与原文不一致、无法支持甚至相矛盾的内容。实验覆盖 12 个跨领域跨任务的数据集,包括新闻摘要、检索增强生成问答、固定文档问答、事实核查和多跳推理等广泛场景。这些任务分别来自 LLM-AggreFact 和 HoVer 两大标准基准,具有很强代表性。
实验采用宏平均 F1 值作为评价指标,从实验结果来看,FaithLens 在这 12 个任务上的整体平均指标超过了所有对比系统。特别是与当前最强开放或闭源的大模型相比,比如 GPT-4.1、GPT-4o、o3、Claude 3.7 Sonnet 以及 Llama-3.1-405B 等,FaithLens 在整体性能上均取得领先。这一结果非常重要,因为 FaithLens 仅基于 8B 参数规模,而这些对比模型大多在百亿乃至千亿级别。
在多跳推理任务 HoVer 上,FaithLens 尤为突出。该任务要求模型综合多个证据片段,进行事实链推理,再判断给定断言是否被支持或被反驳。FaithLens 在这一任务上的显著领先,说明它不仅依靠浅层模式匹配,而是具备了在文档基础上进行结构化推理和一致性分析的能力。

进一步看细节,实验还比较了 FaithLens 与专门为幻觉检测而设计的系统,如 AlignScore、FactCG、MiniCheck 和 ClearCheck 等。实验表明,在绝大部分任务中,FaithLens 的表现明显优于这些专用系统,而且在任务间的性能方差最低,说明不同类型的幻觉现象(例如摘要中的微扭曲、检索问答中的无中生有、多跳推理中的推理缺环等)都可以被统一识别,从而具有较强的鲁棒性与跨任务泛化能力。

此外,研究人员还对“解释生成质量”做了专门实验。他们通过人工评价以及 GPT-4.1 自动评价两种方式,从可读性、帮助性和信息量等维度,系统比较不同模型产生的解释。结果表明,FaithLens 所生成的解释比大多数模型更清晰、更具体,且能够有效指出幻觉产生的原因,例如“文档中不存在该事实”“因果关系被错误推出”“数字被曲解”等,而不是简单重复问题或泛泛而谈。

更为关键的一点是计算成本。实验给出了不同模型在同等样本数量上的推理成本,FaithLens 由于参数规模小,可以用显著更低的 GPU 资源实现推理,其成本大幅低于 API 级闭源模型,同时性能反而更优。实验结果综合表明,FaithLens 在精度、稳定性、解释性以及成本四个方面都具有明显优势。

这项工作的实验设计依托于一个完整的模型训练框架,该框架包含两个核心阶段:冷启动监督微调阶段(SFT)和基于规则的强化学习阶段(RL)。研究团队的设计目标不是简单提高分类准确率,而是希望同时优化两个输出维度:一是是否存在忠实性幻觉的判断结果,二是对此判断的自然语言解释。
在冷启动监督微调阶段,首要问题是训练数据的获取。传统做法需要人工标注幻觉与否,同时撰写解释,这不仅昂贵且一致性差。
研究团队选择利用强大的现成推理模型生成合成数据,具体做法是从公开任务数据集中抽取文档与断言,输入到大型推理模型中,令其输出三种内容:一是推理链条(chain-of-thought),二是自然语言解释,三是标签。这样得到的样本同时包含语义上下文、任务断言、模型推理、解释和结论。
然而,合成数据质量并不稳定。为此,研究人员提出了三层过滤机制来对数据质量进行控制。
第一层过滤关注标签正确性,即比较强模型给出的标签与原始标注是否一致,若不一致则丢弃该样本。这一机制可以防止模型学习“错误但看起来合理的解释”,避免解释与真实标签脱节。
第二层过滤关注解释质量。团队没有采用人工打分,而是提出了一种“解释能否提高预测能力”的客观指标:先计算模型在无解释情况下预测正确标签的困惑度,再加入解释重新预测,如果困惑度下降,则认定解释确实提供了信息支持;否则,该解释被视为冗余甚至误导,从而对应样本被剔除。
第三层过滤关注数据多样性。由于前两层过滤容易保留大量“简单样本”,从而导致模型过拟合某些模式,因此研究团队使用句向量表示文档-断言对,通过聚类算法控制不同类别分布,选取具有代表性的样本,使模型充分暴露于多种幻觉类型之中。

之后,模型在这些通过三重过滤后的数据上进行监督微调,使其获得初步的幻觉检测能力和解释生成能力。然而,该阶段主要属于模仿学习,模型倾向于复制训练数据中的推理习惯,而不会主动优化解释质量或判断可靠性。因此研究人员引入第二阶段 —— 基于规则的强化学习。
在强化学习阶段,模型针对同一输入生成多条候选输出,每条输出同时包含推理过程、解释和最终标签。研究人员采用 GRPO(Group Relative Policy Optimization)算法来更新策略模型。这一算法无需训练额外奖励模型,而是直接利用一组候选之间的相对表现进行优化,更加高效。
实验的关键创新在于奖励设计。首先是预测正确奖励,判断模型最终是否正确识别幻觉或忠实内容。该奖励直接作用于分类准确性。其次是解释质量奖励,这是这项工作最重要的贡献之一。
研究团队提出使用一个较弱的新手模型作为评价器,将 FaithLens 生成的解释输入给新手模型,若新手模型因此更容易作出正确判断,则说明该解释具备清晰性和信息性,因而应当给予奖励。这样系统便能自动学习生成“对他人有用”的解释,而不是仅仅“自我感觉良好”的描述。第三项奖励是格式奖励,用于约束输出结构,使其包含完整的推理、解释和标签,避免语句缺失或结构混乱。
通过三种奖励的合成,FaithLens 在 RL 阶段逐步学会兼顾判断准确性与解释质量。实验还进行了系统性的消融实验,将三重过滤、解释质量奖励、RL 阶段等组件依次去除,对性能影响进行分析,结果显示,这些组件均对最终模型性能具有关键贡献,尤其是解释质量奖励对解释可用性提升显著。

从学术层面来看,这项工作最重要的意义在于,它将幻觉检测从简单判别问题转变为可解释的推理评估问题。以往的多数检测模型只给出二元判断,用户并不知道模型依据何在,也无法定位幻觉的来源。FaithLens 的框架使模型不仅判断“对或错”,同时说明“错在何处、为什么错”,从而使幻觉检测从黑箱工具转向可以审查、可以复核的透明系统。
从应用层面来看,研究解决了现实系统中的两个矛盾:一方面,先进闭源大模型虽然检测和解释能力强,但成本极高,不适合大规模部署。另一方面,小规模模型推理便宜,但质量不足。FaithLens 表明,通过精心设计的数据合成策略与强化学习方案,中等规模模型完全可以实现接近甚至超过闭源大模型的检测与解释能力,从而显著提高系统可落地性。
从方法论角度来看,研究团队提出了一种新的训练思想:即通过解释是否能教会另一模型来衡量解释质量,这突破了传统的 BLEU、ROUGE 等表面指标,将解释从文本评价对象转变为功能性工具。这一思想不仅适用于幻觉检测,还可以推广到推理链验证、数学推理解释、事实核查说明等领域。
更深层的意义在于,这项研究对 AI 可信性提出了新的标准。它暗含这样一个观点:未来的智能系统不能只输出答案,而必须提供可追溯、可核验、可被他模型使用的解释。这与医疗、司法、教育、金融等高风险领域的审计诉求高度契合,具有长远的社会价值。
本论文共有三位共同第一作者,分别来自清华大学、复旦大学以及伊利诺伊大学香槟分校(UIUC),三人共同主导了本项工作的研究推进与论文撰写。
其中,来自清华大学的司书正同时就职于深言科技,现为清华大学计算机系二年级博士生,其导师为孙茂松教授。他的研究方向主要包括自然语言处理和大规模语言模型。在相关领域,他以第一作者或共同第一作者身份在 NeurIPS、ACL、ICLR、EMNLP 等顶级国际会议发表论文 12 篇,其相关论文累计被引用 800 余次,GitHub 项目获得超过 5000 颗星标,其中一篇第一作者论文获得 EMNLP 2025 SAC Highlights Award。

参考链接:https://s1s-z.github.io/
这项工作的通讯录为孙茂松,他是清华大学计算机科学与技术系长聘教授、博士生导师,是我国自然语言处理(NLP)与人工智能领域的重要学者之一。他现任清华大学人工智能研究院常务副院长,并兼任清华大学多个重要学术组织与研究机构的负责人,长期在教学、科研与人才培养一线工作,对我国 NLP 学科体系建设产生了深远影响。
早年求学期间,孙茂松教授在清华大学计算机系完成本科与硕士学习,之后又在海外继续深造并获得计算语言学博士学位,形成了扎实的语言学与计算机科学交叉背景。
作为清华大学自然语言处理实验室(THUNLP)的主要学术带头人之一,孙茂松教授长期关注中文信息处理、机器翻译、语义计算、大模型训练与推理、语言资源与知识图谱、社会与人文计算等研究方向,带领团队围绕 NLP 的基础理论与关键技术开展系统性研究。他的研究既覆盖语言建模、语义表示、推理等核心科学问题,也关注技术在教育、文化与社会治理等领域的落地与影响。
在科研成果方面,他指导和参与的团队在 ACL、EMNLP、NAACL、COLING、AAAI、IJCAI 等国际顶级会议与期刊上发表了大量论文,并主持或承担多项国家级重大科研项目。其研究成果涵盖语言技术基础理论、中文处理平台、智能问答与翻译系统、新一代大规模预训练语言模型等多个方向,为推动中文 NLP 技术进入国际前列发挥了关键作用。
除学术研究外,孙茂松教授也十分重视技术转化与社会服务。他积极推动语言资源建设与相关国际标准制定,参与组织重要科研平台与学术组织建设,并倡导人工智能技术在教育普惠、文化传承与公共治理中的应用。他主持推动了多项具有社会影响力的工程与平台,使语言智能技术真正走向公众与产业实际场景。
在学术荣誉方面,孙茂松教授获得了多项国内外重要学术称号与奖励,包括国际学术组织会士等荣誉,充分体现了国际同行对其学术贡献的认可。他培养的学生与团队成员已在国内外高校与企业成长为骨干力量,形成了在 NLP 领域具有持续影响力的学术梯队。
总体而言,孙茂松教授既是中国 NLP 早期开拓者之一,也是近年来大语言模型与可信 AI 研究的重要推动者。面发挥了关键作用。

参考链接:
https://nlp.csai.tsinghua.edu.cn/staff/sms/
文章来自于“AI科技评论”,作者 “郑佳美”。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner