摘要
本发明涉及语义理解技术领域,具体为基于多模态深度学习的三维场景语义理解方法及系统,包括以下步骤:通过采集自动驾驶场景下点云图像与深度图并进行归一标准化与缺失填补,提取纹理几何空间特征并通过注意力机制融合,引入多时间步状态向量计算变化特征,建模道路参与物体间空间关系并构建动态实例图结构,推理语义标签并对比融合特征生成三维场景语义理解结果。本发明中,通过多源数据归一标准化保障融合质量,图像纹理与点云几何特征协同提取增强语义互补性,状态向量建模提升动态场景感知能力,空间关系图谱刻画物体交互语义关系,语义标签推理机制提升识别精准度与一致性,整体强化三维语义理解的完整性与鲁棒性。