多模态目标检测方法、系统、设备、存储介质和程序产品
申请号:CN202511074604
申请日期:2025-08-01
公开号:CN121033376A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了多模态目标检测方法、系统、设备、存储介质和程序产品,所述方法包括利用多模态大模型对输入图像进行密集小目标的粗检测,获得小目标粗检测结果;基于小目标粗检测结果,利用多模态小模型对输入图像进行密集小目标的精检测获得小目标精检测结果;基于矩形框聚类分析,利用多模态大模型对小目标精检测结果进行智能校正,获得最终检测结果。本发明能够在无需预定义类别的情况下,对密集小目标进行开集检测,准确识别和定位图像中密集分布的未知小目标。
技术关键词
多模态
编码特征
词特征
编码模块
视觉
检测头
图像分割模型
生成多尺度
子模块
跨模态
注意力机制
动态门控
加权特征
基础
特征提取模块