摘要
本申请公开了一种面向应急灾害场景的多模态目标数量统计方法、装置、介质和设备,通过对原始输入图像进行归一化处理,按预设网格结构均匀划分为多个大小一致的图像块;通过语义分割支路从原始输入图像中提取前景区域的目标mask,根据目标mask估算每个图像块内的潜在个体数;通过文本引导支路将预设的语言模板集合输入语言编码器,生成语义向量嵌入;利用注意力机制将目标mask与各图像块的主干视觉特征进行显式融合,将各融合特征与语义向量嵌入进行特征融合后输入数量回归网络进行块级目标数量的预测,得到应急灾害场景下的多模态目标数量统计结果,本申请可有效解决由于目标遮挡、光照干扰、图像损伤等因素导致的人数统计不准问题。