基于手术场景的图像理解推理系统及方法

申请号：CN202510147756

申请日期：2025-02-11

公开号：CN120071355B

公开日期：2025-11-07

类型：发明专利

摘要

本发明涉及手术场景的医学图像加工技术领域，具体涉及基于手术场景的图像理解推理系统及方法。其系统包括图像编码器、感知解码器、多模态大语言模型；所述图像编码器用于接收手术图像，将手术图像编码为图像特征；所述感知解码器用于将图像特征和可学习的对象查询编码为视觉符号发送至多模态大语言模型，对多模态大语言模型输出的信息进行解码；所述多模态大语言模型用于接收手术文本指令及感知解码器的视觉符号，结合手术文本指令及视觉符号进行理解推理，输出手术文本响应及手术分割掩码响应。通过其精简的架构和指令微调方法，有效地弥合了自然图像和手术图像之间的领域差距，实现了精确的像素级推理。

技术关键词

手术场景大语言模型符号视觉图像编码器推理系统推理方法解码器多模态文本对象像素 Softmax函数交叉注意力机制手术器械指令密集特征