一种基于多模态大模型的三维场景理解与指令分析方法

申请号：CN202511343343

申请日期：2025-09-19

公开号：CN120849867B

公开日期：2025-12-26

类型：发明专利

摘要

本发明属于深度学习技术领域，公开了一种基于多模态大模型的三维场景理解与指令分析方法。该方法首先围绕目标应用场景采集并预处理多模态数据，完成时空对齐与语义标注，构建标准化数据集。随后构建多模态场景理解大模型，通过专用编码器提取各模态特征，利用可变形注意力与时序建模实现多模态融合与动态特征增强，并引入稀疏混合专家架构提升模型表达能力与效率。训练阶段采用分阶段策略，先对齐多模态语义，再训练模态专家，最后集成至大模型中进行联合微调，并利用GOAT技术实现轻量参数微调。最终将模型部署于实际环境，实现复杂场景的自动感知与智能决策。本发明显著提升了三维场景理解的精度与效率，适用于智能制造、自动驾驶等领域。

技术关键词

指令分析方法场景语义模态特征动态多模态数据采集权重分配机制专用编码器注意力机制时序数据格式点云多视角文本前馈神经网络微调机制