一种基于文本语义增强的腹腔手术视频三元组识别方法

申请号：CN202511262667

申请日期：2025-09-05

公开号：CN120808239B

公开日期：2025-11-11

类型：发明专利

摘要

本申请涉及一种基于文本语义增强的腹腔手术视频三元组识别方法，包括：设计文本提示并提取其特征得到文本特征表示；采用图像编码器提取腹腔手术视频帧图像的图像编码特征，并将图像编码特征经过瓶颈层输出三元组特征；基于设计的三元解耦注意力模块将图像编码特征解耦为器械特征、动作特征、目标组织特征；融合三元组特征、器械特征、动作特征、目标组织特征，得到图像特征表示；融合文本特征表示与图像特征表示，得到文本增强后的图像特征；基于文本增强后的图像特征训练时间卷积网络，得到训练好的时间卷积网络；获取待识别的腹腔手术视频帧图像的第二图像特征表示；将第二图像特征表示输入至训练好的时间卷积网络，得到三元组分类结果。

技术关键词

三元组时间卷积网络视频帧图像编码器识别方法手术器械定位文本编码器动作特征积层标准化模板语义交叉注意力机制标签