基于跨模态语义协同增强的交互式图像分割方法和交互式图像分割装置

申请号：CN202510926967

申请日期：2025-07-07

公开号：CN120852771A

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种基于跨模态语义协同增强的交互式图像分割方法，包括以下步骤：S1.获取输入图像、用户点击和先前的分割掩码，融合文本标签，生成跨模态提示输入；S2.通过对比损失将用户点击特征与文本标签语义在同一特征空间对齐，给用户点击赋予类别语义信息；S3.双向协同注意力计算，计算图像提示与提示到图像的双向注意力，挖掘图像与提示共同语义；S4.拼接双向注意力融合跨模态特征，增强目标类别在视觉特征中的表达；S5.利用判断性损失与归一化焦点损失，扩大前景－背景特征差异并优化难例分类；S6.根据分割结果与新增点击迭代优化直至满足精度要求，减少用户点击次数提升精度。一种交互式图像分割装置，用于执行交互式图像分割方法。本发明基于跨模态语义协同增强的交互式图像分割方法和交互式图像分割装置，跨模态语义融合提升分割精度与鲁棒性，交互效率提升，减少用户操作负担，特征判别性增强，适应多场景泛化。

技术关键词

语义协同交互式图像分割跨模态双向注意力协同注意力标签文本多层感知机点击特征视觉特征语义特征损失函数优化输入设备精度文本编码器