摘要
本发明提供一种机器人导航方法、装置、电子设备及存储介质,涉及具身智能技术领域,所述方法包括:获取多模态观测信息,并基于所述多模态观测信息生成兴趣点集合;在机器人到达所述兴趣点集合中的当前兴趣点的情况下,从所述兴趣点集合中筛选出除所述当前兴趣点外的多个候选兴趣点,并构建包含所述多个候选兴趣点的组合图像;将所述组合图像输入至视觉语言模型中,输出目标兴趣点,并控制所述机器人导航至所述目标兴趣点;其中,所述视觉语言模型用于理解图像和文本输入,并输出基于多模态推理的决策。本发明提供的方法,大幅降低了视觉语言模型的调用频率,从而显著提升了机器人的导航流畅度和整体计算效率。