摘要
本申请涉及一种基于人机协作的无人机具身认知对齐方法。所述方法包括:采集实体观测图片,将其作为导航图离散节点构建实体对齐任务。针对该任务构建的无人机具身认知对齐模型含四大模块。问题建模模块将任务转化为含状态、动作、观测等要素的POMDP。观察模块基于POMDP,以自我反思机制对目标事实提问,生成疑似实体描述。预测模块采用零样本学习,将疑似实体描述与目标事实输入VLM,输出预测结果。行动模块依托导航‑提问机制:导航时选择未探索实体并靠近获取图片,通过边界框比例控制距离;提问时将已探索实体图片输入VLM生成区分性问题,与人类对话获取目标事实相关回答。采用本方法能够实现在复杂城市环境中准确的实体对齐。