一种基于多模态大语言模型的目标检测系统及方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大语言模型的目标检测系统及方法
申请号:CN202511041720
申请日期:2025-07-28
公开号:CN120953579A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了一种基于多模态大语言模型的目标检测系统及方法,利用 DETR 生成提议框作为对象候选,借助 MLLM 强大的语义推理能力,实现对长尾类别、组合对象等复杂目标的精准检测;构建主视觉编码器与辅助视觉编码器协同的双编码器架构,主视觉编码器延续 MLLM 全局语义理解能力,辅助视觉编码器专攻对象局部特征提取,通过多层多尺度特征拼接,在维度层面实现语义与感知信息的深度互补;创新设计对象索引与坐标预测双输出模式,形成 “检索‑生成” 双重保障体系,有效提升目标检测精度与鲁棒性。
技术关键词
大语言模型 融合特征 对象 适配器 多模态 多尺度特征 图像 文本 双输出模式 编码器架构 局部特征提取 坐标 索引 语义 模块 鲁棒性 参数 物体 矩阵 分辨率
系统为您推荐了相关专利信息
鉴伪方法 序列 人脸表征 终点 音视频
画像方法 多模态 深度神经网络 节点特征 联合损失函数
动态分配方法 上下文特征 点击率 路径匹配 序列
船舶柴油机 故障诊断方法 异常数据 多模态 像素矩阵
展示模型 票据 网格模型 语义 数据