一种基于多模态大语言模型的目标检测系统及方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于多模态大语言模型的目标检测系统及方法
申请号:
CN202511041720
申请日期:
2025-07-28
公开号:
CN120953579A
公开日期:
2025-11-14
类型:
发明专利
摘要
本发明公开了一种基于多模态大语言模型的目标检测系统及方法,利用 DETR 生成提议框作为对象候选,借助 MLLM 强大的语义推理能力,实现对长尾类别、组合对象等复杂目标的精准检测;构建主视觉编码器与辅助视觉编码器协同的双编码器架构,主视觉编码器延续 MLLM 全局语义理解能力,辅助视觉编码器专攻对象局部特征提取,通过多层多尺度特征拼接,在维度层面实现语义与感知信息的深度互补;创新设计对象索引与坐标预测双输出模式,形成 “检索‑生成” 双重保障体系,有效提升目标检测精度与鲁棒性。
技术关键词
大语言模型
融合特征
对象
适配器
多模态
多尺度特征
图像
文本
双输出模式
编码器架构
局部特征提取
坐标
索引
语义
模块
鲁棒性
参数
物体
矩阵
分辨率
系统为您推荐了相关专利信息
1
音视频多模态联合鉴伪方法、装置、电子设备及存储介质
鉴伪方法
序列
人脸表征
终点
音视频
2
面向城市产业迁移的时空特征提取与深度画像方法及系统
画像方法
多模态
深度神经网络
节点特征
联合损失函数
3
一种基于用户行为的营销预算动态分配方法
动态分配方法
上下文特征
点击率
路径匹配
序列
4
一种船舶柴油机故障诊断方法及系统
船舶柴油机
故障诊断方法
异常数据
多模态
像素矩阵
5
一种票据显示方法、装置、设备及可读存储介质
展示模型
票据
网格模型
语义
数据