摘要
本申请公开了多模态实体识别方法、装置、终端设备及介质,包括:获取输入数据,其中,输入数据至少包括文本数据和图像数据;根据输入数据和预先训练好的识别模型,确定与输入数据对应的实体信息,其中,预先训练好的识别模型是对多模态样本数据进行文本特征和图像特征的提取,并对文本特征和图像特征进行融合,得到融合特征,采用融合特征对基于跨模态注意机制的训练模型进行训练得到的,本申请实施例通过增加一个多模态特征融合编码模块,该模块利用三种视觉特征来表示图像语义的各个方面。最后,通过协作表示整合这些特征,并使用共享的多任务标签解码器来联合解码文本和多模态表示,以进行实体预测,提高了多模态实体预测的准确性。