一种工业场景下的多模态语义分割方法、系统、装置及存储介质
申请号:CN202410811465
申请日期:2024-06-21
公开号:CN118657942A
公开日期:2024-09-17
类型:发明专利
摘要
本申请涉及语义分割技术的领域,尤其涉及一种工业场景下的多模态语义分割方法、系统、装置及存储介质。其中,工业场景下的多模态语义分割方法包括获取包含待识别对象的RGB检测图像和待识别对象的文本数据;将所述RGB检测图像和所述文本数据输入语义分割模型,通过所述语义分割模型分别提取所述RGB检测图像的图像特征和所述文本数据的文本特征,将所述图像特征与所述文本特征进行对齐和融合得到处理后的语义特征,并基于所述语义特征评判所述RGB检测图像为目标对象的概率作为输出,得到对所述RGB检测图像的识别结果,能够提高复杂工业场景下待识别目标物体语义分割效果。
技术关键词
语义分割方法
语义分割模型
图像
文本
语义特征
交叉注意力机制
场景
工业
跨模态
文字特征
特征提取模块
样本
对象识别
语义分割系统
数据
语义分割技术
损失函数优化
感兴趣