AI智能体正把医疗AI从「看片子」升级成会思考、能行动的「医生搭档」。研究人员发表的最新综述,用通俗语言拆解智能体如何读懂多模态数据、像专家一样规划决策,又能扮演医生、护士、健康管家等多重角色;同时提醒:越智能越危险,必须配套严格评估、隐私保护与伦理护栏,才敢让它走进真实诊疗。
近年来,大模型的快速发展推动了AI智能体(AI Agents)技术的兴起。医疗健康作为一个知识密集、决策复杂且不确定性高的领域,正是智能体发挥价值的理想场景。
在智能体的加持下,医疗AI不再局限于医学影像分析等单一任务,而是有望升级为能够理解上下文、整合信息并进行复杂规划的医生合作伙伴。
AI智能体的核心优势在于其具备一定程度的自主性,能够执行比传统模型更复杂的任务。
然而,这种自主性也带来了医疗场景下的特殊挑战。
作为一个高风险的领域,医疗应用对安全性、隐私保护、伦理合规和可信度的要求远高于其他行业。
我们该如何设计、管理并信任这些具备自主能力的智能体系统?
在这一背景下,来自圣母大学、约翰·霍普金斯大学和埃默里大学的研究团队联合发布了医疗健康AI智能体的全面综述,系统性地梳理了医疗智能体从数据感知、核心能力、应用生态到评估框架的全生命周期,并总结了当前方法的局限性与未来研究方向。

论文链接:https://www.techrxiv.org/doi/full/10.36227/techrxiv.176240542.22279040/v2
论文仓库:https://github.com/AgenticHealthAI/Awesome-AI-Agents-for-Healthcare
研究人员已将本次综述所涵盖的200+篇论文在github整理为一份持续更新的资源列表。每篇论文均附有发表时间、所属类别、项目链接与GitHub星星数,旨在为社区提供一个动态发展的学术地图。


arXiv预印平台上医疗智能体(蓝)和通用智能体(橙)论文数量增长曲线
医疗智能体研究正经历指数级增长。
数据显示,截至2025年,相关论文数量已较2024年全年增长超过130%,这一爆发既得益于通用智能体、多模态基础模型和临床API等关键技术的成熟,也源于医疗场景中对高效、可解释AI工具的迫切需求。

医疗智能体研究热点分析:数据、技术与应用
同时,研究前沿也在迅速扩展。
数据模态不断丰富:研究重点正从传统的文本(如对话、临床笔记)、医学图像和电子健康记录,转向时间序列信号(来自可穿戴设备)和基因组学等新兴数据源,标志着AI从分析静态记录迈入动态、高维生物数据时代。
关键技术持续演进:除框架开发、推理增强和多智能体协作外,知识图谱与强化学习成为新的技术焦点,推动智能体实现更可靠的结构化知识推理与奖励驱动型决策。
应用领域深入核心:智能体的应用正从公共卫生、精神健康等广泛领域,进一步拓展至药物研发与基因组学等生物医学核心环节,承担起科学假设验证与复杂数据解读的关键任务。
要系统理解医疗智能体,一个贯穿其全生命周期的概念框架至关重要。它从感知环境开始,到核心能力构建,最终融入应用生态,完整地解剖了智能体在医疗场景中被构建、思考并发挥价值的完整链条。

医疗智能体从感知、能力到应用的生态全景图
医疗数据的多模态与异构性是所有医疗AI应用的核心挑战。从医患对话到基因组序列,每种模态的数据结构、临床意义和处理范式截然不同。
因此,按数据类型进行系统性梳理,是构建能真正读懂医疗场景的智能体的第一步,也决定了其后续能力的上限和专精度。
智能体需具备处理多模态医疗数据的能力,具体包括:

医疗智能体的感知模态、智能体角色与代表系统概览
尽管记忆、规划、工具使用等能力是通用智能体的共性,但一旦置于医疗背景下,其内涵与权重便发生偏移。
例如,「工具使用」在医疗中意味着调用经过严格验证的计算模型,而「推理」则必须遵循循证医学的逻辑,使得通用架构被赋予了坚实的医疗专业性与安全性考量。这是实现智能决策的关键,也是区别于传统模型的核心:

医疗多智能体系统的三种协调机制:(a) 任务分解:由协调者分配子任务。 (b) 辩论共识:同级智能体通过辩论达成一致 。 (c) 环境驱动:通过共享环境(如患者模拟器)进行异步协调 。

智能体架构、核心能力、典型系统与关键贡献一览
在医疗健康领域,智能体的服务对象直接决定了其定位、被赋予的自主权、以及潜在的风险等级。
例如,辅助医生的智能体多为「人类主导」的合作模式;而直接面向患者的智能体,因患者缺乏医学知识,其安全容错率极低,需内置更严格的监护与升级协议;
至于用于医学教育或医院管理的智能体,其影响范围则从个体扩展到整个系统
因此,依据智能体服务的核心角色进行划分有助于理解其应用生态:
更重要的是,智能体的价值正体现在打通这些角色间的壁垒,催生创新的混合应用。
例如,在远程诊疗中,智能体同时服务于医生与患者,协调问诊与随访;在公共卫生监测中,它则连接起研究者与管理者,将科研成果转化为监管决策。这彰显了智能体作为核心枢纽,重塑未来医疗协作模式的潜力。

医疗智能体的应用领域、智能体角色、自主级别与代表系统概览
将智能体应用于临床,必须建立一套严格的评估标准,以确保其可靠性与安全性。一个完整的评估体系应涵盖以下三个层面:
通过多层次的综合评估才能确保智能体的进步不仅是技术指标的提升,更能转化为真实世界中的临床价值。
尽管前景广阔,医疗智能体在实际部署中仍面临诸多挑战:

医疗智能体所面临的核心挑战
在当前实践中,多数医疗智能体仍聚焦于相对孤立的子任务。只有系统性地解决上述挑战,这些系统才可能从「点状工具」扩展为贯穿全流程的协调中枢:在单一路径内感知患者状态、规划检查与干预、调用合适的模型与工具,并与多方临床角色协同决策。
未来,这一演化趋势指向面向复杂临床工作流的智能体式 AI 协调系统(Agentic AI),能够围绕长期治疗目标进行跨时序的计划、执行与校正,并在安全、隐私与可追责性保障下实现可规模化部署。
综合分析揭示,医疗智能体的发展正汇聚于一个明确目标:构建一个能感知复杂环境、具备核心能力、并在真实场景中安全应用的临床协作者。
这一愿景的实现,必须由贯穿始终的严格评估来保驾护航。
目前,我们已在技术层面取得关键进展,但在多模态融合、系统互操作与数据治理等方面仍需深入探索。
未来的医疗AI,将超越单一工具的定位,演进为深度融入诊疗全流程、安全可信的智能合作伙伴。
参考资料:
https://www.techrxiv.org/doi/full/10.36227/techrxiv.176240542.22279040/v2
文章来自于“新智元”,作者 “LRST”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md