摘要
本申请实施例提供多模态图像融合决策方法、装置、设备和存储介质,涉及图像处理技术领域。根据当前帧对应的RGB图像和DVS图像得到RGB编码特征和DVS编码特征,获取当前帧对应的时空掩码矩阵,将RGB编码特征、DVS编码特征和时空掩码矩阵输入预设层数互相级联的注意力融合结构进行特征融合得到RGB融合特征和DVS融合特征,获取基于RGB融合特征和DVS融合特征进行信息交互得到的交互特征,利用解码器根据RGB融合特征、DVS融合特征和交互特征得到当前帧的预测结果。针对黑暗场景下RGB图像易受光照不足影响产生的噪声、DVS图像因动态信息捕捉偏差出现的干扰,引入时空掩码矩阵进行抑制,降低噪声的影响,并通过交互特征补充场景动态信息,提升黑暗场景下的预测精度。