一种基于结构化语义提取和几何特征融合的图像字幕算法
申请号:CN202511090643
申请日期:2025-08-05
公开号:CN120976565A
公开日期:2025-11-18
类型:发明专利
摘要
本发明提供一种基于结构化语义提取和几何特征融合的图像字幕算法,包括:视觉语义特征提取模块和字幕生成模块;所述视觉语义特征提取模块包括,区域特征、网络特征、结构化语义特征和所述字幕生成模块,首先通过CLIP模型从图像中检索最相似的文本句子,提取概念语义与属性特征,并通过余弦相似度检索Top‑K文本特征后进行多级聚类,从根本上解决语义信息提取的孤立性问题。其次,通过设计几何感知语义强化编码器,逐步融合网格特征、区域特征和结构化语义特征,并在融合过程中引入几何坐标信息,从而强化结构化语义特征的表达能力。该过程显著增强了模型对图像空间关系的建模能力,并提升了对全局语义的理解。
技术关键词
语义特征提取
字幕
网格特征
网络特征
图像
注意力机制
跨模态
原型
解码器
神经网络模型
加权特征
坐标
算法
模块
查询特征
Sigmoid函数