国产多模态Agent拿下医学分割SOTA！不用改模型、不加token

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

6520点击 2026-04-22 09:11

这个生物医学视觉推理框架，被CVPR 2026接收了！

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

人类专家在标注医学图像时，从不是“看一眼就画出来”。

他们会先扫视全图、锁定可疑区域，随后在分割工具上反复点击正负样本，根据每一步生成的mask形态重新判断，不断调整策略——

这是一个多轮交互、边看边想、边想边做的迭代推理过程。

然而，现有的医学多模态大模型普遍采用“单次前向推理”范式：

输入图像，输出mask，一步到位。

这种方式面对生物医学图像中细微的病灶边界、复杂的解剖结构、模糊的视觉语义时往往力不从心。

更深层的问题在于，为了赋予MLLM分割能力，现有方法普遍引入隐式分割token（如<SEG> ）并与外部pixel decoder联合微调——

这一设计破坏了大模型原有的文本输出空间，导致语言推理能力退化，泛化能力大打折扣。

上述范式存在四个核心瓶颈：

单次推理无法自我纠错：一旦第一步定位出现偏差，错误持续累积，最终影响分割质量。

隐式token破坏推理能力： <SEG>等token侵占文本空间，导致灾难性遗忘，细粒度视觉推理被严重压制。

缺乏自主决策机制：模型只能被动执行单次指令，无法像人类专家一样主动观察、反思、调整。

训练数据瓶颈：现有数据集只有最终mask，缺乏逐步交互的推理轨迹，难以直接监督多步行为。

鉴于上述问题，浙江大学蔡钰祥教授、上海人工智能实验室研究员江彦开等人联合提出了IBISAgent——

一个将分割重新定义为多步视觉决策过程的Agentic MLLM框架。

具体方法

概括而言，IBISAgent的主要创新点如下：

将分割任务建模为多步马尔可夫决策过程（MDP） ，以交错的文本推理与点击动作替代隐式token，保留MLLM完整的语言推理能力，同时实现自主多轮迭代精化。

提出两阶段训练框架。首先通过冷启动SFT在自动生成的推理轨迹上建立像素级推理先验；随后引入Agentic强化学习，以细粒度奖励信号驱动模型自主探索更优决策策略，超越对轨迹的简单模仿。

构建包含456K条高质量推理轨迹的冷启动数据集，覆盖正常标注与自我反思纠错两类轨迹，为多步视觉推理提供系统化的训练基础。

具体方法为，IBISAgent将整个分割过程建模为一条多步推理轨迹，每一步由三个核心元素构成闭环：

推理（Textual Thinking）：模型对当前分割图像的状态进行推理分析，如“当前mask偏左，需要在右侧肿瘤边缘补充正向点击”。

行动（Action）：模型输出结构化的空间点击指令，包含三个要素：分割目标类别（Target）、点击属性（正/负，Attribute）、归一化图像坐标（Coordinate_2d）。模型可在一步中同时输出多个点击。

观测（Observation）：点击被传入交互式分割工具MedSAM2，生成更新后的mask，并叠加到原图上作为下一步的视觉输入反馈给模型。

这一设计的关键在于：

模型每一步都能“看到”自己上一步分割的结果，形成视觉感知与语言推理的闭环。

整个过程不引入任何新的模型组件或隐式token，分割能力完全从MLLM内在的视觉推理中涌现，并天然支持从头分割与mask精化两类任务。

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

与此同时，IBISAgemt采用两阶段训练方案：

第一阶段：冷启动SFT。

现有生物医学分割数据集只有最终mask，没有逐步点击轨迹。

研究团队利用BiomedParseData（340万图像-mask对， 9种成像模态）开发了自动轨迹生成算法：

通过规则化的点击模拟策略自动推导点击序列，再用Gemini- 2.5-Pro为每步生成对应的自然语言推理。

为增强鲁棒性，额外合成两类自我反思轨迹：

（1）错误自纠正——检测到错误动作后回溯并重新推理；

（2）指令不一致纠正——遇到与初始mask不符的指令时主动丢弃并重新分割。最终构建出包含456K样本的高质量冷启动数据集。

第二阶段：Agentic强化学习。

SFT之后模型仍在模仿已有轨迹，研究团队进一步引入RL，设计细粒度奖励框架在每个交互步骤提供密集反馈：

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

其中区域点击奖励与渐进式分割改进奖励是核心创新——

前者引导模型将每次点击落在语义有效的区域，后者强制每步行动必须带来实质性的分割改善，从而彻底杜绝冗余操作与来回震荡。

RL训练使用GRPO算法，在888K VQA样本上进行优化。

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

实验结果

实验结果显示，IBISAgemt在域内测试集、域外泛化集（MeCOVQA-G+，涵盖5种成像模态）和自建私有数据集（1K CT/MRI/病理， 7类癌症）三个benchmark上，均大幅领先所有对比方法。

相比医学专用MLLM基线，平均IoU提升35.13%， DSC提升37.58%， F1提升29.79%。

值得注意的是， Citrus-V和UniBiomed均在比本方法更大规模的数据集上训练， IBISAgent仍能一致超越，说明性能提升来自方法设计本身，而非数据优势。

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

与工具增强Agent的对比实验

相比同样调用MedSAM2的工具增强型Agent（GPT-4o 、LLaVA-Med 、HuatuoGPT-Vision等）， IBISAgent在域外集和私有数据集上仍保持显著领先，充分说明多轮交互式推理带来的增益远超简单的工具调用。

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

两阶段训练消融实验

消融实验证明，冷启动SFT、自我反思轨迹和RL三个方案缺一不可，逐级叠加均带来明显收益。

RL阶段提供最大的性能跃升，说明强化学习的探索-利用机制对激发真正自主的像素级推理至关重要。

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

细粒度奖励设计消融实验

对于RL阶段的奖励设计，研究团队同样进行了逐项验证。

以仅使用格式奖励与答案奖励为基线，在域外集MeCOVQA-G+上的IoU仅为73.77；

逐步引入区域点击奖励后， IoU提升至76.60， mask定位准确性显著改善；

加入渐进式分割改进奖励后进一步跃升至80.61，同时平均交互步数从11.29步压缩至8.12步，模型学会了更高效的分割路径；

最终叠加轨迹长度奖励后，交互效率继续提升，步数降至4.26步，同时分割质量维持在最高水平。

这一结果表明，细粒度的逐步反馈信号是驱动模型在质量与效率之间取得最优平衡的关键，单纯依赖最终结果奖励无法达到同等效果。

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

小结一下

这项研究将生物医学图像分割从“单次推理输出”推进到“自主多轮交互决策”。

针对现有方法依赖隐式token导致的推理能力退化问题， IBISAgent以交错的文本推理与点击动作完全替代<SEG>token，保留了MLLM完整的语言能力，并通过多步MDP建模实现真正的自主迭代精化。

进一步地，冷启动SFT结合自动轨迹生成建立稳健的推理先验，Agentic强化学习与细粒度奖励驱动模型超越模仿、探索最优决策策略，最终实现了细粒度的视觉推理。

广泛的实验验证了IBISAgent在多模态、多疾病场景下的一致性优势，为未来面向真实临床的智能医学图像分析系统奠定了重要基础。

论文链接： https://arxiv.org/abs/2601.03054

代码链接： https://github.com/Yankai96/IBISAgent

文章来自于"量子位"，作者 "IBISAgent团队"。

关键词: AI新闻 , 模型训练 , IBISAgent , 生物医学视觉推理框架

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner