摘要
本发明提供一种三维空间指代推理方法、装置、电子设备及存储介质,涉及数据处理技术领域,方法包括:获取目标场景的RGB‑D图像数据和包含空间约束的自然语言指令;其中,RGB‑D图像数据为:包含彩色视觉信息和深度信息的多模态图像数据;将RGB‑D图像数据和自然语言指令输入至预训练的视觉语言大模型中,输出包含显式推理过程的文本和符合空间约束的目标点坐标;其中,视觉语言大模型为:通过深度对齐与空间理解增强的两阶段监督学习微调以及基于显示推理过程的强化学习微调联合训练得到;视觉语言大模型包括独立的深度编码器,深度编码器用于处理深度信息。通过本发明提供的方法,提升了在复杂空间指代任务中的综合表现。