摘要
本发明提出一种融合多样态图像特征的待检测图像识别方法及系统,属于深度学习领域和计算机视觉领域,包括:S1:提取待检测图像的文本数据和图像特征,将输入提示词引导大语言模型,获取并融合描述含义的文字和图像特征的提示词,得到的图像文本描述;将输入文本编码器,得到特征向量;S2:将经过分片操作和线性排列投影,得到一维嵌入向量,将输入图像编码特征提取模块,获取图像纹理特征向量;S3:将和输入融合增强模块,进行特征融合增强,得到最终特征表示;S4:将输入到分类器中,确定是否为有害图像。本发明方法引入大语言模型,提高了有害图像的识别准确率。