一种基于多模态大模型的三维场景理解与指令分析方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的三维场景理解与指令分析方法
申请号:CN202511343343
申请日期:2025-09-19
公开号:CN120849867B
公开日期:2025-12-26
类型:发明专利
摘要
本发明属于深度学习技术领域,公开了一种基于多模态大模型的三维场景理解与指令分析方法。该方法首先围绕目标应用场景采集并预处理多模态数据,完成时空对齐与语义标注,构建标准化数据集。随后构建多模态场景理解大模型,通过专用编码器提取各模态特征,利用可变形注意力与时序建模实现多模态融合与动态特征增强,并引入稀疏混合专家架构提升模型表达能力与效率。训练阶段采用分阶段策略,先对齐多模态语义,再训练模态专家,最后集成至大模型中进行联合微调,并利用GOAT技术实现轻量参数微调。最终将模型部署于实际环境,实现复杂场景的自动感知与智能决策。本发明显著提升了三维场景理解的精度与效率,适用于智能制造、自动驾驶等领域。
技术关键词
指令分析方法 场景 语义 模态特征 动态 多模态数据采集 权重分配机制 专用编码器 注意力机制 时序 数据格式 点云 多视角 文本 前馈神经网络 微调机制
系统为您推荐了相关专利信息
异构数据整合方法 动态元数据 邻域 多源异构数据 节点
网络通信方法 多频段 模糊综合评价 模糊隶属函数 粒子群优化算法
图像分类网络 图像分类方法 视觉特征 适配器 投影模块
机器人腿部结构 椭圆形齿轮 足式机器人技术 关节电机 力矩
挡风玻璃 亮度 偏光片 玻璃基板 控制系统