通用大模型(LLM)的狂飙突进,终于在医疗垂直领域的「最后一公里」撞上了硬墙。虽然 ChatGPT 在 USMLE(美国执业医师资格考试)中表现优异,但在面对需要「火眼金睛」和「毫厘必争」的心脏手术台上,通用大模型的表现究竟如何?
近日,一项由空军军医大学唐都医院李妍教授团队牵头,与深圳清华大学研究院朱锐团队联合完成的 COMPARE 研究在 arXivs 上发表预印版。研究揭示:在经皮冠状动脉介入治疗(PCI)的决策制定中,CA-GPT垂直领域 CA-GPT 系统(一项基于 OCT 影像的 AI 系统),在关键决策指标上显著优于 Open AI 的通用大模型 ChatGPT-5。该研究是基于中科微光医疗(Vivolight Medtech)OCT 系统搭建的 RAG 增强型 AI-OCT 整合决策支持模型。

这不仅是一次算法的胜利,某种程度上可以称得上是中国腔内影像领域的「DeepSeek 时刻」。这套 CA-GPT 系统有望重新定义心脏介入手术的智能化标准。
据《2023 年全球心血管疾病负担报告》统计,每年因心血管疾病死亡的人数达 1920 万,而经皮冠状动脉介入治疗(PCI)作为最核心的血运重建手术,全球年手术量已超过 400 万例。在 PCI 手术中,OCT(光学相干断层成像)被称为医生的「第三只眼」,可清晰看到血管内病变情况,但是其图像解读高度依赖医生经验,初级医师与资深专家在手术成功率、并发症发生率等关键指标上的差距高达 40% 以上。

腔内影像中不同技术与分辨率的对比示意图
在这项纳入了 96 名患者、160 处病变的临床研究中,团队构建了一个严苛的竞技场:将 CA-GPT 系统、ChatGPT-5 以及拥有 1-5 年经验的初级介入医师放在同一维度下,以资深专家团队制定的手术记录为金标准进行盲测 。所有方案均与患者实际接受的手术记录(由年手术量≥ 200 例、经验≥ 10 年的高级专家完成)进行比对。评估涵盖 10 项预设决策指标,分为术前规划 5 项和术后评估 5 项,每项一致得 1 分,总分 0-5 分。

10 项不同 PCI 策略的评分标准
值得一提的是,传统 OCT 图像解读还需要医师逐帧分析,耗时数分钟至十数分钟。相比之下,CA-GPT 系统可在 20 秒内完成全面分析并生成结构化报告,将影像解读时间缩短 95% 以上。
结果显示,在术前规划(Pre-PCI)阶段,CA-GPT 对 ChatGPT 形成了「降维打击」:

决策一致性亚组分析

各评分项目的性能分布
而在术后评估(Post-PCI)阶段,三方总体表现都比术前更好,因为这个阶段有了术前方案和实际结果可以参考。但 CA-GPT 依然在一些关键指标上表现出优势,比如:对「最小支架面积是否达标」的判断,CA-GPT 与专家判断的吻合度接近 100%;年轻医生略有差距。
对「支架是否扩张不足」、「是否存在严重贴壁不良」的识别,CA-GPT 在支架贴壁评估(93.2% 准确率)等需要精细判断的项目上,优于初级医师组(76.1%)。
那为何拥有海量参数的 ChatGPT-5 会败下阵来?研究指出,通用大模型虽然语言推理能力强,但缺乏对图像数据的数值敏感性和空间理解力。特别是在面对功能性缺血(OCT-FFR≤0.80)或严重钙化等复杂病变时,通用模型容易产生「幻觉」,而 CA-GPT 则展现了极高的稳定性,在复杂病变亚组分析中依然保持了中位数 5.0 的高分。
CA-GPT 之所以能实现高稳定性和准确性,核心在于摒弃了对单一端到端大模型的迷信,构建了一套严密的「小模型 + 大数据 + 大模型」的 RAG 复合智能体架构。

CA-GPT 训练模型架构:小模型 + 大数据 + 大模型
据其技术披露,该系统并非简单的聊天机器人,而是一个精密的协作系统:

基于 CA-GPT 的 AI-OCT 系统辅助决策案例介绍
这项技术突破的终极意义,不在于在论文中战胜 ChatGPT,而在于解决医疗资源分布不均的现实痛点。全球心血管疾病负担日益加重,但资深介入专家(完成 1000+ 例手术)却是极度稀缺资源。培养一名能独立处理复杂病变的医生,往往需要 8-12 年的漫长周期。研究数据显示,初级医生在处理复杂病变时,与专家存在显著差距。
因此,CA-GPT 系统在本质上是在做「医疗能力的平权」。
想象一下,在偏远的县级医院,一位刚工作不久的医生,在面对复杂的钙化病变时手足无措。此时,CA-GPT 系统在 5-10 秒内给出了手术策略:
这相当于每台手术都有一位顶尖专家在旁「手把手」指导。
过去十年,中国医疗器械行业更多是在追赶西方的脚步。但此次发布的 CA-GPT 系统及其临床成果,标志着中国企业在高端腔内影像领域开始掌握定义权。
不做通用大模型的「套壳」,而是深耕垂直场景的「窄门」。 用数据证明:在医疗这种容错率为零的领域,唯有将深度学习的精准度与大模型的推理能力完美结合,才是 AI 落地的正途。
这或许就是中国医疗科技的「DeepSeek 时刻」—— 把 AI 技术落地业务场景,用自己的技术,解决最真实的临床痛点。
文章来自于“机器之心”,作者 “机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI