视频解说生成方法和装置

申请号：CN202411564962

申请日期：2024-11-04

公开号：CN119418702A

公开日期：2025-02-11

类型：发明专利

摘要

本申请实施例提供了一种视频解说生成方法，该视频解说生成方法包括：获取目标视频的音频及视觉信息；基于所述音频和预先训练好的自动语音识别模型，获取识别文本；将所述识别文本输入到预先训练好的语言模型中，以通过所述语言模型获取所述目标视频的解说文本；将所述视觉信息和所述解说文本输入到预先训练好的多模态模型中，以通过所述多模态模型获取所述目标视频的解说音频。本申请实施例的技术方案可以通过深度集成自动语音识别模型、语言模型和多模态模型，实现从视频到高质量解说音频的全自动化流程，适应各种复杂的解说场景，可以有效地结合不同模态的特征，如视觉和文本，合成更自然流畅且与视频内容高度匹配的解说音频，提升观众体验。

技术关键词

自动语音识别文本音频视觉特征声谱生成方法视频帧多模态主题语义可读存储介质计算机程序产品处理器通信生成装置标签指令