清华孙茂松团队 × 深言科技:以解释作为训练信号,让 8B 模型在幻觉检测上反超闭源大模型
清华孙茂松团队 × 深言科技:以解释作为训练信号,让 8B 模型在幻觉检测上反超闭源大模型FaithLens 模型在忠实性幻觉检测任务上,达到了当前最优效果。
来自主题: AI技术研报
8207 点击 2026-01-08 08:43
FaithLens 模型在忠实性幻觉检测任务上,达到了当前最优效果。
想象一下,如果 ChatGPT 等 AI 大模型在生成的时候,能把自己不确定的地方都标记出来,你会不会对它们生成的答案放心很多?
IBM 正式发布了其新一代开源大语言模型 Granite 3.1,这是一组轻量级、先进的开源基础模型,支持多语言、代码生成、推理和工具使用,能够在有限的计算资源上运行。这一系列模型具备 128K 的扩展上下文长度、嵌入模型、内置的幻觉检测功能以及性能的显著提升。
DeepMind发表了一篇名为「To Believe or Not to Believe Your LLM」的新论文,探讨了LLM的不确定性量化问题,通过「迭代提示」成功将LLM的认知不确定性和偶然不确定性解耦。研究还将新推导出的幻觉检测算法应用于Gemini,结果表明,与基线方法相比,该方法能有效检测幻觉。
大模型长期以来一直存在一个致命的问题,即生成幻觉。由于数据集的复杂性,难免会包含过时和错误的信息,这使得输出质量面临着极大的挑战。过多的重复信息还可能导致大型模型产生偏见,这也算是一种形式的幻觉。