尽管检索增强生成(RAG)技术赋予了大模型使用外部知识的能力,但其生成结果的准确性和可靠性依然面临重大挑战,尤其在医疗、金融等高度专业化的领域的,实际应用中常因“幻觉”问题而难以落地。为此,清华大学NLP实验室联合北京师范大学、中国科学院大学、东北大学等机构的研究人员推出了全新的评测方法 RAGEval,通过快速构建场景化评估数据实现对检索增强生成(RAG)系统的“精准诊断”。
相比以往RAG评测工作,RAGEval不仅具备适应多领域的数据快速构建能力,还提出了全新的评测指标,提供了高效、细致的评测流程。无论是在学术研究还是行业应用中,RAGEval 都为生成式AI带来了更加可信的验证方法,为每一场景中的生成质量保驾护航。
论文信息
RAGEval论文链接:
https://arxiv.org/abs/2408.01262
RAGEval数据与代码链接:
https://github.com/OpenBMB/RAGEval
近期,清华大学NLP实验室联合北京师范大学、中国科学院大学、东北大学等机构的研究人员联合发布了一篇题为《RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework》的研究论文,该工作提出了一个新的检索增强生成 (RAG) 评估框架 RAGEval。这项研究成果为评估不同领域 RAG 系统的有效性提供了新的思路和工具。
随着大语言模型(Large Language Models, LLMs)在自然语言处理任务中取得令人瞩目的进展,如何缓解模型的幻觉问题成为一大挑战。RAG 系统通过结合外部知识检索,在一定程度上缓解了这一问题。然而,这些系统仍然容易受到检索过程引入的噪声和 LLMs 对检索到的信息利用不足的影响,从而导致幻觉现象。因此,对 RAG 系统进行评估对于确保其在实际应用中的可靠性至关重要。
然而,现有的 RAG 评估基准主要侧重于评估 LLMs 是否能正确回答通用知识问题,难以覆盖多样化的场景和领域,无法满足需要领域特定知识或高度准确性的情境。例如,在金融领域,微观经济行为和宏观经济政策分析所需的知识存在显著差异。开发基于场景的评估数据集可以解决这个问题,但这面临着巨大的挑战:真实世界的场景复杂而动态,难以通过手动方式全面覆盖;大规模数据收集常常受到隐私和后勤方面的限制;生成高质量的数据需要专业知识,增加了人力和时间成本。
构建高质量RAG实际场景评测数据的两大挑战
RAGEval 主要贡献包括:
研究结果表明,RAGEval 能够更好地评估 LLMs 在垂直领域的知识利用能力。该框架为未来 RAG 系统的改进和优化提供了重要参考。
下图是 RAGEval 框架,其核心在于自动生成特定领域的评估数据集。该框架首先从少量种子文档中提取结构化信息,形成领域特定的 schema。这个过程捕捉了领域内的关键知识点和结构。接下来,框架基于这个 schema 生成多样化的配置,这些配置作为后续文档生成的蓝图,确保了生成内容的多样性和代表性。在配置的指导下,RAGEval 生成符合特定领域特征的文档,这些文档既包含真实性,又保持了一定的变化性。基于生成的文档和配置,框架进一步构建问答对,这些问答对涵盖了不同类型的问题,如事实性、多跳推理等,全面考验 RAG 系统的深度分析问题能力。
RAGEval框架流程图
为了更精确地评估 RAG 系统的表现,研究团队提出了三个新的评估指标:Completeness(完整率)、Hallucination(幻觉率)和 Irrelevance(无关率)。完整率衡量生成答案对关键信息的覆盖程度,幻觉率评估答案中与关键点矛盾的内容,无关率则量化答案中既不覆盖也不矛盾的信息比例。这些指标共同提供了一个全面的评估框架,能够深入分析 RAG 系统在不同方面的表现。
在实验部分,研究者们构建了DRAGONBall数据集,这是一个多领域、多语言的 RAG 评估数据集。该数据集涵盖了金融、法律和医疗等重要领域,包含中英文文本,总计6711个问题。问题类型多样,包括信息整合、事实型、多跳推理等,方便全面测试 RAG 系统的各项能力。相关问题类型细节以及数据统计如下:
RAG问题类型及其定义
左图:不同问题所需文档数量的分布
右图:RAG问题类型及其比例分布
为了确保RAGEval框架的有效性和生成数据的质量,研究团队进行了全面的人工评估。这个评估过程分为三个主要任务:QAR(问题-答案-参考)质量评估、生成文档质量评估,以及自动评估的验证。
在QAR质量评估中,研究者随机选择了每种问题类型、每种语言和每个领域的10个样本,总计420个样本进行质量评分。评分标准详情涵盖了从完全正确到完全不相关的六个等级。结果显示,所有领域的评分4和5的比例均达到或超过95%,表明生成的 QAR 具有高度的准确性和流畅性。
评分标准详情
对于生成文档质量评估,研究者将 RAGEval 生成的文档与零样本和单样本提示生成的基线文档进行比较。评估者根据上图中定义的清晰度、安全性、丰富度和一致性等标准对文档进行排名。结果显示,RAGEval 方法在所有标准上都优于基线方法,特别是在中英文数据集的丰富度、清晰度和安全性方面,有超过 85% 的情况下排名第一。
按维度对文档生成进行比较
最后,为验证自动评估的一致性,研究者比较了 LLM 和人类在完整性、幻觉和不相关性指标上的评估结果。使用与 QAR 质量评估相同的420个样本,结果显示机器评估和人类评估在所有指标上都有高度一致性,绝对差异小于0.026。
这些全面的人工评估结果不仅证实了 RAGEval 方法在生成高质量、安全和丰富内容方面的有效性,也验证了自动评估指标在反映人类判断方面的可靠性。
自动化指标验证结果
实验结果显示,RAGEval 能够有效区分不同模型在特定领域的表现。例如,在金融领域的实验中,研究者们发现不同的检索模型(如BM25, GTE-Large, BGE-Large等)在中英文数据上表现各异。同时,实验也揭示了参数量对模型性能的影响,以及不同超参数设置(如TopK值、分块大小)对 RAG 系统整体表现的影响。
生成模型性能比较
1. 实验设置
这项实验旨在比较9个广受欢迎的开源和闭源生成模型的性能,这些模型具有不同的参数规模。选定的模型包括MiniCPM-2B-sft、Baichuan-2-7B-chat、Qwen1.5-7B/14B-chat、Qwen2-7B-Instruct、Llama3-8B-Instruct、GPT-3.5-Turbo和GPT-4o。研究团队采用相同的输入提示来比较不同模型的输出,以确保公平比较。为了全面评估模型性能,研究者们对每个领域(金融、法律、医疗)和语言(中文、英文)的所有问题类型选择了前50个问题进行评估,这意味着每个领域总共有350个问题被用于测试。这种广泛的问题选择确保了评估结果的代表性和可靠性。
2. 主要结果
基于Rouge-L指标,Baichuan-2-7B-chat在中文(32.62%)和英文(30.39%)上都展现出最佳表现。然而,GPT-4o在Rouge-L指标上表现较差(中文15.27%,英文21.90%),但在Completeness、Hallucination和Irrelevance这些新提出的指标上却表现优异。这一结果凸显了传统指标与新指标之间的差异,以及评估RAG系统时采用多维度指标的重要性。
值得注意的是,参数量较小的MiniCPM-2B模型在中文Completeness指标上达到了41.14%,超越了一些参数量更大的模型,展示了小型模型在特定任务上的潜力。在7B-8B参数规模的模型中,Llama3-8B-Instruct表现尤为突出,特别是在英文评估中。
实验还证实了模型规模对性能的影响,如Qwen1.5-14B-chat在多个指标上优于Qwen1.5-7B-chat。在开源模型中,Qwen1.5-14B-chat在中文表现最佳(Completeness 49.26%),而Llama3-8B-Instruct在英文表现最佳(Completeness 65.24%)。
尽管GPT-4o整体表现最优,但其与顶级开源模型的性能差距并不显著。例如,在中文测试中,GPT-4o的Completeness得分(51.87%)仅比Qwen1.5-14B-chat高2.61%;在英文测试中,其得分(68.45%)仅比Llama3-8B-Instruct高3.21%。这一发现表明开源模型有潜力通过进一步优化缩小与闭源模型的差距。
检索模型性能比较
1. 实验设置
这项实验聚焦于评估不同检索模型在 RAG 系统中的表现。研究团队选择了 Llama3-8B-Instruct 模型作为基础生成模型,并在 Dragonball 金融数据集上进行了实验。实验同时在中文和英文数据上进行,以评估语言对检索性能的影响。评估的检索模型包括传统的 BM25 算法以及近期的神经网络模型如GTE-Large、BGE-Large和BGE-M3。为了全面评估检索模型的性能,研究者采用了多个评估指标,包括Recall(召回率)、EIR(Effective Information Rate,有效信息率)、Completeness(完整率)、Hallucination(幻觉率)和Irrelevance(无关率)。这些指标不仅衡量了检索的准确性,还考虑了检索结果对后续生成任务的影响。
2. 主要结果
实验结果显示,检索模型的性能在不同语言环境下存在显著差异。在英文数据集上,GTE-Large模型展现出优异的性能,其Recall达到67.10%,EIR达到12.64%(接近EIR最高的BGE-Large),表明该模型能够有效检索相关信息并尽可能最小化噪声。然而,这个模型在中文环境下的表现相对较差,Recall仅为58.99%。
相比之下,在中文数据集上,BGE-M3模型展现出最佳的整体性能。它不仅在Recall指标(85.96%)和Completeness指标(69.80%)上取得了最高分,还在EIR指标上领先(5.19%)。此外,BGE-M3模型还表现出最低的Hallucination指标(20.04%)和Irrelevance指标(10.10%),这表明该模型在中文环境下能够提供既准确又相关的检索结果。
这些结果强调了在检索模型开发中进行语言特定优化的重要性。同时,检索指标(如Recall和EIR)与生成指标(如Completeness和Hallucination)之间的一致性模式,进一步验证了本研究提出的评估框架的有效性。这表明为检索阶段设计的指标能够有效预测生成阶段的结果质量,因为更高的Recall和EIR分数通常会导致更好的完整性和更低的幻觉率。
1. 实验设置
在这项实验中,研究团队在Dragonball数据集的三个英文场景(金融、医疗、法律)上测试了Llama3-Instruct模型,采用了三种不同的Chunk-TopK设定。具体来说,chunk的大小和topk的取值分别进行了组合,以评估在不同参数设置下模型的性能。其他实验设置与主实验保持一致。
2. 主要结果
不同场景难度存在差异。实验结果如下图所示,不同场景的任务难度差异显著。在128-8的参数设定下,金融场景的Completeness指标达到了最高的66.84%,表明这是相对最容易的场景。而法律场景的Completeness指标仅为39.79%,是最具挑战性的场景。这反映了不同领域的复杂性对模型性能的影响。
不同Chunk-TopK设置下,不同场景的完整性结果(%)
场景特定的最佳参数设置。不同的场景有不同的最佳超参数设置。例如,金融场景在 Chunk-Topk 为128-8时表现最佳;医疗场景在512-2的设置下达到最优;而法律场景的最佳性能出现在256-4的参数配置。这凸显了针对特定场景进行参数优化的重要性,以充分发挥模型的潜力。
场景特定测试的重要性。上述结果强调了在不同场景下对RAG系统进行测试的必要性。这支持了研究团队生成场景特定数据集的初衷,表明只有通过针对性的测试和优化,才能在各个领域中实现模型的最佳性能。
文章来自于微信公众号 “OpenBMB开源社区”
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/