摘要
本发明属于深度学习技术领域,公开了一种基于多模态大模型的三维场景理解与指令分析方法。该方法首先围绕目标应用场景采集并预处理多模态数据,完成时空对齐与语义标注,构建标准化数据集。随后构建多模态场景理解大模型,通过专用编码器提取各模态特征,利用可变形注意力与时序建模实现多模态融合与动态特征增强,并引入稀疏混合专家架构提升模型表达能力与效率。训练阶段采用分阶段策略,先对齐多模态语义,再训练模态专家,最后集成至大模型中进行联合微调,并利用GOAT技术实现轻量参数微调。最终将模型部署于实际环境,实现复杂场景的自动感知与智能决策。本发明显著提升了三维场景理解的精度与效率,适用于智能制造、自动驾驶等领域。