摘要
本申请涉及一种基于文本语义增强的腹腔手术视频三元组识别方法,包括:设计文本提示并提取其特征得到文本特征表示;采用图像编码器提取腹腔手术视频帧图像的图像编码特征,并将图像编码特征经过瓶颈层输出三元组特征;基于设计的三元解耦注意力模块将图像编码特征解耦为器械特征、动作特征、目标组织特征;融合三元组特征、器械特征、动作特征、目标组织特征,得到图像特征表示;融合文本特征表示与图像特征表示,得到文本增强后的图像特征;基于文本增强后的图像特征训练时间卷积网络,得到训练好的时间卷积网络;获取待识别的腹腔手术视频帧图像的第二图像特征表示;将第二图像特征表示输入至训练好的时间卷积网络,得到三元组分类结果。