摘要
本发明公开了一种基于原型学习的视觉情感识别方法,所述方法如下:一、通过从多个方面提取可学习提示词的原型,为每个情感类别构建明确的文本特征,从而减少语义差异;二、捕获每个类别最具代表性的图像特征,提供更鲁棒和具有判别性的特征表示,同时使样本更加聚集以减少过拟合;三、基于原型距离的标签平滑算法,缓解标签模糊性问题;四、在模型训练阶段,综合利用文本原型、视觉原型和标签平滑,构建多任务学习框架,对文本编码器、图像编码器和分类器进行训练;在推断阶段,使用训练好的图像编码器和分类器进行视觉情感识别。本发明通过联合学习文本情感表达和视觉特征的原型,探索具有判别性的情感表示,从而提高视觉情感识别的准确性。