摘要
本发明公开了轮式巡检机器人及其相机运动理解方法与系统,通过数据采集模块实时获取位移、视频流数据及位姿数据;相机运动分类模块对视频帧进行运动分类和视觉检测,输出几何原语与语义原语标签和设备状态检测结果,并映射至参考框架;SfM‑VLM融合推理模块通过SfM算法提取相机运动的几何参数,融合视觉特征后输入VLM模型生成自然语言语义描述;结构化注释模块基于几何原语、语义原语标签和自然语言语义描述生成标签层与字幕层的双轨注释;多模态决策模块融合几何原语与语义原语标签、设备状态检测结果与数据采集模块采集的数据生成巡检决策;解决了动态环境下的运动解耦、目标跟踪、数据注释与多模态决策问题,提升了巡检可靠性与智能化水平。