三维空间指代推理方法、装置、电子设备及存储介质

申请号：CN202510739906

申请日期：2025-06-04

公开号：CN120633854A

公开日期：2025-09-12

类型：发明专利

摘要

本发明提供一种三维空间指代推理方法、装置、电子设备及存储介质，涉及数据处理技术领域，方法包括：获取目标场景的RGB‑D图像数据和包含空间约束的自然语言指令；其中，RGB‑D图像数据为：包含彩色视觉信息和深度信息的多模态图像数据；将RGB‑D图像数据和自然语言指令输入至预训练的视觉语言大模型中，输出包含显式推理过程的文本和符合空间约束的目标点坐标；其中，视觉语言大模型为：通过深度对齐与空间理解增强的两阶段监督学习微调以及基于显示推理过程的强化学习微调联合训练得到；视觉语言大模型包括独立的深度编码器，深度编码器用于处理深度信息。通过本发明提供的方法，提升了在复杂空间指代任务中的综合表现。

技术关键词

深度编码器推理方法大语言模型自然语言彩色视觉信息图像坐标文本图片推理装置多模态指令非暂态计算机可读存储介质格式编码器参数电子设备数据处理技术