摘要
本申请实施例提供了一种视频解说生成方法,该视频解说生成方法包括:获取目标视频的音频及视觉信息;基于所述音频和预先训练好的自动语音识别模型,获取识别文本;将所述识别文本输入到预先训练好的语言模型中,以通过所述语言模型获取所述目标视频的解说文本;将所述视觉信息和所述解说文本输入到预先训练好的多模态模型中,以通过所述多模态模型获取所述目标视频的解说音频。本申请实施例的技术方案可以通过深度集成自动语音识别模型、语言模型和多模态模型,实现从视频到高质量解说音频的全自动化流程,适应各种复杂的解说场景,可以有效地结合不同模态的特征,如视觉和文本,合成更自然流畅且与视频内容高度匹配的解说音频,提升观众体验。