医学可用！推理增强RAG：精准诊断、智能补问、高效解析

医学可用！推理增强RAG：精准诊断、智能补问、高效解析 | WWW 2025

5062点击 2025-03-14 16:19

南洋理工大学的研究团队提出了MedRAG模型，通过结合知识图谱推理增强大语言模型（LLM）的诊断能力，显著提升智能健康助手的诊断精度和个性化建议水平。MedRAG在真实临床数据集上表现优于现有模型，准确率提升11.32%，并具备良好的泛化能力，可广泛应用于不同LLM基模型。

近年来，智能健康助手（Healthcare Copilot）逐渐成为智能医疗的重要方向，目标是为医生和患者提供诊断决策支持。

然而，现有的检索增强生成（Retrieval-Augmented Generation, RAG）模型在医学领域仍存在多重挑战：

诊断准确性不足：许多疾病的症状相似，现有RAG模型容易给出模糊或错误的诊断结果，导致误诊风险增加。

缺乏医学推理能力：传统RAG主要依赖检索到的类似病例，而缺乏结合医学知识的推理能力，难以提供精准、个性化的诊断建议。

患者信息不完整：在现实诊疗场景中，患者提供的信息往往不全面，医生需要主动询问关键症状，而现有模型难以自动生成有针对性的补充问题。

数据隐私问题：医疗数据涉及敏感隐私，如何在保证数据安全的前提下利用电子健康记录（EHR）提升AI诊断性能，是一大挑战。

为了解决这些问题，南洋理工大学的研究人员提出了一种新型的知识图谱推理增强的RAG诊断模型MedRAG，结合知识图谱（Knowledge Graph, KG）和大模型推理能力，显著提升智能健康助手的诊断能力，研究成果已被WWW 2025录用。

医学可用！推理增强RAG：精准诊断、智能补问、高效解析 | WWW 2025

论文链接：https://arxiv.org/pdf/2502.04413

代码开源：https://github.com/SNOWTEAM2023/MedRAG

中文演示：https://www.bilibili.com/video/BV1urPeemEZd/

英文演示：https://youtu.be/PNIBDMYRfDM

下图是以MedRAG为基础架构开发的智能健康助手的用户界面（UI）。

医学可用！推理增强RAG：精准诊断、智能补问、高效解析 | WWW 2025

图1：以MedRAG为基础架构的智能健康助手

这个智能健康助手的设计充分结合医生需求调研（User Interviews with Clinicians）的反馈，满足医生在不同诊疗场景下的实际需求。

根据访谈结果，医生普遍希望智能健康助手具备三大核心能力：精准的诊断支持、智能补充提问、高效的患者信息解析，以减少误诊、提升问诊效率，并优化医疗决策流程。

在UI交互设计上，MedRAG支持多模态输入，包括无打扰问诊语音监控、文本输入以及电子健康记录上传，确保医生能够快速录入患者信息。

系统会实时解析症状，在本地病例库检索相似病例，并结合知识图谱推理生成精准诊断建议。医生可以在界面上查看候选疾病列表、决策解释、个性化治疗用药方案等。同时，MedRAG还会依据知识图谱推理生成智能补充提问，帮助医生快速获取关键诊断信息。

MedRAG研究方法

医学可用！推理增强RAG：精准诊断、智能补问、高效解析 | WWW 2025

图2：MedRAG整体架构

MedRAG主要由三个核心模块组成：

1. 构建四层细粒度诊断知识图谱（Diagnostic Knowledge Graph Construction）

现有医学知识库（如 UMLS）往往存在粒度不够细、缺乏特定疾病的症状对比信息的问题。

为了能够更精准地支持诊断推理，研究人员采用了疾病聚类（Disease Clustering）、层次聚合（Hierarchical Aggregation）、语义嵌入（Semantic Embedding）、医学专家知识和（Expert Knowledge Augmentation）大语言模型增强（Large Language Model (LLM) Augmentation）、表征分解（Manifestation Decomposition）等技术构建了四层次医疗诊断知识图谱。

该医疗诊断知识图谱保障了疾病分类的精准性、诊断特征的可区分性，是MedRAG能够根据疾病表征间的关键差异性进行精准诊断的基础。具体层次如下：

第一层（L1）：疾病大类——如神经系统疾病、肌肉骨骼疾病等。
第二层（L2）：疾病子类——如腰椎相关疾病、关节炎等。
第三层（L3）：具体疾病——如腰椎管狭窄、坐骨神经痛、颈椎病等。
第四层（L4）：疾病表征——每个疾病都对应一组关键表征，如“椎管狭窄”可能表现为“间歇性跛行”、“坐下通常可以缓解”等。

2. 诊断差异知识图谱搜索（Diagnostic Differences KG Searching）

该模块用于匹配患者的症状与知识图谱中的诊断特征，核心流程包括临床特征分解（Clinical Feature Decomposition），通过自然语言处理技术将患者提供的描述拆解为多个独立的症状表征；

随后，通过临床症状匹配（Clinical Features Matching），采用语义搜索算法计算患者症状与诊断知识图谱中特征的相似度，精准定位最相似的症状节点；

接着，利用向上遍历（Upward Traversal）机制，在知识图谱中找到最相关的疾病类别，并逐步向下匹配具体疾病，最终通过诊断关键特征提取（Diagnostic Differences Extraction）识别对疾病鉴别最重要的表征，为精准诊断和个性化治疗方案提供有力支持。

3. 知识图谱引导LLM推理（Knowledge Graph-Elicited Reasoning）

传统 RAG 在诊断生成过程中仅依赖检索到的病例，而MedRAG通过知识图谱增强LLM的推理能力，使得LLM具备更接近医生的思维逻辑，实现更精准且可解释的诊断推理。

整个过程首先采用利用FAISS（Facebook AI Similarity Search）构建高效索引，确保在大规模电子健康记录（EHR）数据库中精准、高效地定位最具临床相似性的病例；

随后，匹配关键诊断特征，基于诊断知识图谱提取当前患者最具鉴别力的表征信息，以增强模型的决策推理依据；接着，推理诊断结果，通过LLMs（如GPT-4o、Llama-3.1等），融合检索到的病例信息，诊断差异知识图和患者信息联合推理，生成更加精准、上下文一致的诊断建议；

最后，制定个性化治疗方案，包括针对性的治疗策略、药物推荐、康复训练计划等，并提供进一步的医学解释。

这一推理机制不仅显著提升了MedRAG在复杂医疗场景下的诊断能力，还增强了诊断过程的透明性和可解释性，提高医生的信任度与临床适用性。

此外，在真实的临床问诊过程中，患者往往难以完整、精准地描述自身病情，而医生则需通过针对性提问获取关键信息，以辅助诊断决策。MedRAG的主动诊断提问机制（Proactive Diagnostic Questioning）

借助知识图谱推理，自动生成高效、精准的补充问题，帮助医生快速弥补信息缺失，从而提升诊断的准确性与可靠性。其核心逻辑包括计算患者症状的不确定性，识别当前病例中缺失的关键信息；结合知识图谱推演可能的疾病，筛选需进一步确认的症状特征；最终，生成精准的补充提问，例如「您的疼痛是否在坐下时加重？」或「您的疼痛是否会向腿部放射？」，以引导医生获取更具鉴别力的临床信息，使诊断过程更具针对性和智能化。

实验与结果

数据集

MedRAG的验证实验采用了两个具有代表性的数据集，以评估其在医学诊断任务中的有效性和泛化能力。

公开数据集DDXPlus是一个大规模电子健康记录（EHR）数据集，涵盖49种不同的疾病，包含超过130万名患者病例，用于测试模型在复杂、多样化病症诊断中的表现。

私有数据集CPDD（Chronic Pain Diagnostic Dataset）由新加坡陈笃生医院（Tan Tock Seng Hospital）提供，包含551名慢性疼痛患者的真实临床病历，涉及33种疾病类别，专注于评估MedRAG在真实临床环境下的诊断精度和实用性。

定量性能

比较的结果表1显示，MedRAG在CPDD数据集上的最高粒度（L3）诊断准确率达到66.04%，而DDXPlus数据集上达到了68.01%，相比现有SOTA模型分别提升11.32%和1.23%，证明了其在不同医疗场景下的卓越性能。

医学可用！推理增强RAG：精准诊断、智能补问、高效解析 | WWW 2025

表1：定量性能比较的结果

KG引导的推理

研究人员在不同的LLM基模型上评估了KG引导的推理对其性能的影响，包括一系列的开源和闭源模型。表2的结果表明，KG引导推理显著提升了GPT-4o、Llama-3.1、Mixtral-8x7B、Qwen-2.5等多个主流大模型的诊断准确性，证明了其在不同LLMs上的良好泛化能力和适应性。

医学可用！推理增强RAG：精准诊断、智能补问、高效解析 | WWW 2025

表2：KG引导推理在不同LLMs基模型上的性能

总结

MedRAG通过知识图谱增强LLM的推理能力，实现了更精准更细粒度的医学诊断。

主动诊断提问机制，帮助医生高效获取患者关键信息，减少误诊。在真实临床数据上，MedRAG相比SOTA模型提升11.32%，且在不同LLM上表现出良好泛化能力。详细方法流程以及实验结果请参考原文。

作者介绍

论文的第一作者是新加坡南洋理工大学（NTU）与加拿大英属哥伦比亚大学（UBC）百合卓越联合研究中心（LILY Research Centre）的瓦伦堡-南洋理工大学校长博士后研究员赵雪娇，共同一作是LILY Research Centre的研究助理刘思言。

该论文联合了新加坡陈笃生医院（Tan Tock Seng Hospital）和Woodlands Health的Su-Yin Yang博士共同完成。通讯作者为新加坡南洋理工大学计算机工程系教授，NTU-UBC百合卓越联合研究中心（LILY）主任。

参考资料：

https://arxiv.org/pdf/2502.04413

文章来自于“新智元”，作者“LRST”。

医学可用！推理增强RAG：精准诊断、智能补问、高效解析 | WWW 2025

关键词: AI , RAG , MedRAG , AI医疗

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/