如何利用 Agent 解决医疗大模型患者真实偏好的痛点?医患沟通能否更高效?医疗诊断能否更精准?AI 能否进一步释放医疗领域新的可能性?华中科技大学陈伟教授的 AI Hospital 给我们带来了启发。Enjoy
《AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern Doctors for Clinical Diagnosis》
解决问题: 为了有效评估医疗大模型在实际应用中的实用性,AI Hospital 框架创建了一个模拟的临床环境。这个框架通过模拟真实的医患交流和决策过程,能够更全面地评估模型的交互沟通能力和诊断准确性,从而判断其在现实医疗环境中的潜在效用
模型框架: AI Hospital 框架设计了四个关键角色——病人、实习医生、检查员和主治医生。实习医生通过与病人的互动收集病情信息,并建议进行医学检查。检查员根据实际医疗数据提供检查结果,实习医生根据这些信息进行综合分析,形成初步诊断。最后,主治医生对实习医生的诊断报告和整个问诊过程进行评价,考察信息收集的完整性和诊断的合理性
评估方法: 评估 LLMs 性能的方法包括交互式咨询和一次性提供完整信息两种模式。交互式咨询更接近实际的医疗问诊,要求模型通过与患者的连续对话来收集信息并作出诊断。而一次性提供完整信息的 One-Step 方法则设定了一个较高的性能标准
应用空间:医院问诊 Agent、通用医疗大模型
评估结果:评估发现,即使是先进的 GPT-4 模型,在交互式咨询中的性能也未达到 One-Step 方法的水平,这揭示了模型在处理逐步收集的信息方面的挑战。该结果指出了当前 LLMs 在模拟真实医疗交互和决策过程中存在的局限,提示未来的研究方向应致力于提升模型在交互式环境中的处理能力和适应性,以便更好地服务实际的医疗诊断需求
绿洲:能否简单介绍一下您的背景及研究方向?
陈教授: 我博士期间在复旦大学自然语言处理实验室魏忠钰老师的团队,主要研究方向是基于对话的智能问诊。多模态是研究纯自然语言处理学者转型的一个大趋势,医疗问诊也正在从单模态向多模态转型。我们现在主要的愿景是希望基于大模型做出更落地的医疗应用,将病人档案、医学影像、检查结果,以及更底层的信息,比如基因测序结果等融合在一起,让医生做出更精确的诊断和治疗方案。
绿洲:请给我们介绍一下 AI Hospital。
陈教授: AI Hospital 主要是一个评估方法上的创新,它是希望能够更好地评估现有大模型在实际医疗交互中的能力。在现实世界中,医生通过望闻问切等方法,主动与病人互动,收集信息,结合检查结果,然后才做出诊断。然而,现有的大模型往往缺乏这种交互能力,它们更倾向于一次性提供完整、冗长的回答,而不是通过主动询问和信息收集来适应病人的需求。这种行为模式我们认为并没有对齐患者的真实偏好和适应医疗交互的复杂性。
为了克服这一挑战,我们开发了 AI Hospital,这是一个模拟真实医疗环境的交互式评估框架。它包括多个角色:病人、实习医生、检查员和主治医生。在这个框架中,我们模拟了医患之间的多轮对话,让实习医生通过提问和收集病人的反馈来逐步构建对病情的理解。这样的交互过程不仅更接近真实的医疗问诊,而且能够更好地适应和满足患者的需求。
通过 AI Hospital,我们能够评估大型语言模型在模拟临床诊断中的交互能力和决策准确性。我们的评估不仅关注模型提供的信息质量,还包括它们如何与用户进行有效沟通。这种评估对于指导我们如何优化这些模型的交互性和实用性至关重要。通过这种方式,我们希望推动医疗大模型的发展,使它们能够更好地服务于实际的医疗场景,提供更符合患者期望的医疗服务。
绿洲:AI Hospital 中引入争议解决机制的原因是什么?
陈教授: 在 AI Hospital 中,我们采用了两种评估方法来衡量模型的性能:交互式评估和一站式(One-Step)评估。交互式评估依赖于模型通过与患者的连续对话来收集信息,而一站式评估则是模型直接接收患者的所有信息,并据此生成诊断结果。我们发现,尽管像 GPT-4 这样的大型模型在一站式评估中表现出色,但它们在交互式评估中的表现却不尽如人意,这表明模型在模拟真实医生的诊断过程中还存在局限。
为了解决这一问题,我们引入了一种争议解决机制。这个机制的核心是利用多个实习医生模型来处理同一病例,每个模型都会根据自己的理解和收集到的信息提出诊断。然后,我们引入一个协调 Agent,它的作用是整合这些实习医生的诊断结果,通过相互比较和讨论,引导它们逐步调整和优化自己的诊断,直至达成共识。
这个过程模拟了现实医疗环境中医生团队协作解决问题的方式。虽然这种争议解决机制能够在一定程度上提升模型的诊断性能,但我们也清楚地认识到,它仍然无法完全达到一站式评估的性能水平。这表明我们还有很长的路要走,需要不断地探索和改进,以便使我们的模型更加精准地模拟医生的诊断过程,更好地服务于实际的医疗需求。
绿洲:您从 2019 年就开始做 AI for Healthcare,您觉得大模型对于医疗或医院自动化带来最大的变化是什么?
陈教授: 最大的改变是模型架构和任务范式的变革。早期的医疗 NLP 主要依赖于 RNN 和 LSTM 等传统神经网络模型,那时候,数据量小,模型参数也少,很多任务的性能自然就上不去。随着 BERT、GPT 等模型的出现,我们看到了模型架构和任务处理方式的革命性变革。特别是大模型的发展,让大家建立共识,只要高质量的标注数据足够多,模型参数足够大,模型的效果和多任务的处理能力就可以提高。
过去一年,在国内,学术界和业界都出了非常多的医疗大模型,大部分是纯文本的,现在也有很多多模态的,比如医学影像、蛋白质、化学分子、药物等。这些大模型有潜力帮助医生做出更精确的诊断,制定更个性化的治疗方案。这不仅仅局限于诊断,它还涉及到医疗质量的监控、患者服务的提升,甚至是医院的日常管理。随着技术的持续进步和行业内的深度合作,我认为医疗大模型的发展可以引领医疗行业走向一个全新的时代,极大地提高我们提供医疗服务的质量和效率。
绿洲:上一波做 AI 图像遇到最大的问题是迁移,例如一个医院训练完的数据对其他医院无用。多模态也在统一到 Transformer,包括 Vision Transformer 和 Sora,关于迁移和通用性的问题您怎么看呢?
陈教授: 我觉得大模型可以缓解迁移问题,但未必能完全解决。不同医院之间有很大的区别,包括购买的设备和评判标准,不同医院测的标准值有微弱的差别。也就是说,这个医院测出来的数据可能是正常的值,在另一个医院可能就属于不正常。
如果希望达到更好的迁移目的,不同的医院数据又无法共享,我觉得比较可行的方向是联邦学习。每个医院可以作为一个独立的客户端参与到模型的训练中。医院不需要共享原始数据,而是可以在本地处理数据并上传模型的梯度信息至中央服务器。服务器将这些梯度信息整合后,再下发更新的模型参数给各个参与医院。这样就可以实现使用多家医院的数据共同训练模型,同时保护每家医院的隐私。
绿洲:LLM 评估如何做得好,业内目前有共识吗?
陈教授: 在医疗这块,LLM 的评估还是不足的。包括类似 Google 的 Med-PaLM 的评测,它也是在固定的数据集上做的评测,当然这些数据集上的指标的确可以评估模型的表现。但是,在数据集的性能和实际场景中的表现不一定是匹配的。我们现在也希望可以做更自动化、成本更低的评估,因为 AI Hospital 大量地调用了 GPT-4,我们在想,把这些智能体的行为都训练到自己的参数更小的模型里去,这样我们可能就可以用成本更低的方式去做评估,评估如果做好了,那么就找到去优化模型的方向了。
绿洲:您如何看海外 AI 在医院方向的应用呢?
陈教授: 在医疗领域,我认为强调泛化能力的模型存在一定的风险。医院和医生往往更倾向于使用专业性强的模型,而非通用型模型。这是因为医疗专业人员,如医生和护士,他们的工作性质要求高度的精确性和专业性。他们需要的是模型能够提供可解释、有依据的诊断建议,而不仅仅是对话交流。为了满足医疗专业人员的需求,我们应该致力于提升模型的专业性和准确性。这意味着模型不仅要能够提供准确的诊断结果,还要能够解释其决策过程,为医生提供有力的证据支持。这样的模型能够帮助医生做出更明智的临床决策,并提高医疗服务的整体质量。目前,国外的一些医疗大模型,正沿着这一方向发展,它们专注于分析特定的医学影像类型(如CT)或针对特定的器官进行诊断。这种专业化的模型设计有助于提高模型的诊断准确性,同时也使得模型的输出更加符合医疗实践的需求。总之,我认为在医疗 AI 领域,我们应该追求的是模型的专业性和解释能力,而非仅仅关注其对话能力。通过不断优化和深化模型的专业知识,我们可以更好地服务于医疗行业,为患者提供更高质量的医疗服务。
绿洲:你认为哪种技术迭代(例如指令微调和检索增强)会对 AI 在医疗领域落地真正起到作用?有哪个环节可以最快落地并带来较大的效应呢?
陈教授: 在医疗领域,技术的迭代和创新对于 AI 的实际应用至关重要。我认为,无论是指令微调还是检索增强等技术,都能在不同程度上辅助 AI 在医疗领域的落地。这些技术并不相互排斥,而是可以相互补充,共同推动 AI 的发展。
关键在于如何结合大模型和有效的方法论,以及如何利用高质量的数据。只要我们能够确保数据的优质性,AI 在医疗领域的应用就有很大的潜力。然而,我们也必须面对一个现实问题,那就是罕见病的数据收集困难,这可能导致模型存在偏见和不公平性。在这种情况下,医生的专业判断显得尤为重要,正如自动驾驶技术最终也需要人类驾驶员的监督一样,医疗决策的最终责任仍然需要由医生来承担。
从 AI 技术在医疗领域落地的角度来看,我认为肿瘤分期预测和手术方案选择是最有希望快速实现并带来显著效果的环节。据我了解,大约有 30%-40% 的医生在肿瘤分期上存在误判。如果初期的分期判断不准确,那么后续的治疗方案可能也不是最优的。随着医院信息化系统的不断升级和完善,结合大量的真实数据和人工标注,我们有望利用多模态数据进行精准的肿瘤分期和手术方案的选择。
总之,AI 在医疗领域的应用前景广阔,但我们需要在技术创新的同时,注重数据质量、模型的公平性和医生的专业判断。通过这些综合措施,我们可以期待 AI 技术在医疗领域发挥更大的作用,为患者提供更精准、更有效的医疗服务。
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner