摘要
本发明涉及一种跨模态3D视觉定位推理系统及方法,该系统包括:参考视觉选择模块用于从输入的隐式指令中推理出用户意图,并匹配选择与该用户意图最相关的参考视角;尺度‑层级高斯特征场构建模块用于从参考视角中获取潜在特征以及物理尺度,并通过语言映射和实例映射,得到包含层级语言空间和层级实例空间的层次化高斯特征;层级高斯分组模块用于对层次化高斯特征进行聚类分组,并通过渲染处理,定位得到目标物体。该方法包括:构造数据集ReasoningGD,用于训练ReasonGrounder框架;输入隐式语言指令给训练后的ReasonGrounder框架,输出目标物体定位结果。与现有技术相比,本发明通过分层构建高斯场,将多模态的语言和视觉特征嵌入到统一的三维空间中,能有效提升目标定位的精度。