摘要
本发明涉及手术场景的医学图像加工技术领域,具体涉及基于手术场景的图像理解推理系统及方法。其系统包括图像编码器、感知解码器、多模态大语言模型;所述图像编码器用于接收手术图像,将手术图像编码为图像特征;所述感知解码器用于将图像特征和可学习的对象查询编码为视觉符号发送至多模态大语言模型,对多模态大语言模型输出的信息进行解码;所述多模态大语言模型用于接收手术文本指令及感知解码器的视觉符号,结合手术文本指令及视觉符号进行理解推理,输出手术文本响应及手术分割掩码响应。通过其精简的架构和指令微调方法,有效地弥合了自然图像和手术图像之间的领域差距,实现了精确的像素级推理。