一种基于结构化语义提取和几何特征融合的图像字幕算法

申请号：CN202511090643

申请日期：2025-08-05

公开号：CN120976565A

公开日期：2025-11-18

类型：发明专利

摘要

本发明提供一种基于结构化语义提取和几何特征融合的图像字幕算法，包括：视觉语义特征提取模块和字幕生成模块；所述视觉语义特征提取模块包括，区域特征、网络特征、结构化语义特征和所述字幕生成模块，首先通过CLIP模型从图像中检索最相似的文本句子，提取概念语义与属性特征，并通过余弦相似度检索Top‑K文本特征后进行多级聚类，从根本上解决语义信息提取的孤立性问题。其次，通过设计几何感知语义强化编码器，逐步融合网格特征、区域特征和结构化语义特征，并在融合过程中引入几何坐标信息，从而强化结构化语义特征的表达能力。该过程显著增强了模型对图像空间关系的建模能力，并提升了对全局语义的理解。

技术关键词

语义特征提取字幕网格特征网络特征图像注意力机制跨模态原型解码器神经网络模型加权特征坐标算法模块查询特征 Sigmoid函数