基于手术场景的图像理解推理系统及方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于手术场景的图像理解推理系统及方法
申请号:CN202510147756
申请日期:2025-02-11
公开号:CN120071355B
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及手术场景的医学图像加工技术领域,具体涉及基于手术场景的图像理解推理系统及方法。其系统包括图像编码器、感知解码器、多模态大语言模型;所述图像编码器用于接收手术图像,将手术图像编码为图像特征;所述感知解码器用于将图像特征和可学习的对象查询编码为视觉符号发送至多模态大语言模型,对多模态大语言模型输出的信息进行解码;所述多模态大语言模型用于接收手术文本指令及感知解码器的视觉符号,结合手术文本指令及视觉符号进行理解推理,输出手术文本响应及手术分割掩码响应。通过其精简的架构和指令微调方法,有效地弥合了自然图像和手术图像之间的领域差距,实现了精确的像素级推理。
技术关键词
手术场景 大语言模型 符号 视觉 图像编码器 推理系统 推理方法 解码器 多模态 文本 对象 像素 Softmax函数 交叉注意力机制 手术器械 指令 密集特征