摘要
本申请适用于情感识别技术领域,提供了一种多模态情感识别方法,该方法包括:获取待测视频数据中包含的多个模态数据的初始模态特征;对多个模态数据的初始模态特征进行融合拼接和时序特征处理,得到多个词汇级别多模态融合特征;然后,对多个词汇级别多模态融合特征进行自注意力加权计算,得到待测视频数据的视频级别多模态融合特征;根据视频级别多模态融合特征对待测视频数据进行情感识别处理,得到待测视频数据对应的情感预测结果。通过将音频模态数据、图像模态数据和文本模态数据的初始模态特征进行融合处理,和通过自注意力加权计算对词汇级别多模态融合特征的关键信息分配更多的权重信息,来提高情感识别的准确率。