摘要
本申请提供了一种模型训练方法、语音识别方法、装置及存储介质,包括:获取多个语音图像对数据,多个语音图像对数据中的目标语音图像对数据包括:对应内容一致的目标语音数据和目标图像数据;针对多个语音图像对数据中的任一目标语音图像对数据,通过语音特征提取模型对目标语音数据进行特征提取,得到目标语音数据的语音特征,语音特征包括:语音全局特征和/或语音局部特征;通过视觉特征提取模型对目标图像数据进行特征提取,得到目标图像数据的图像特征,图像特征包括:图像全局特征和/或图像局部特征;根据语音特征和图像特征,训练语音特征提取模型,提高语音特征的提取准确性和语音识别结果的准确性。