视频解说生成方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
视频解说生成方法和装置
申请号:CN202411564962
申请日期:2024-11-04
公开号:CN119418702A
公开日期:2025-02-11
类型:发明专利
摘要
本申请实施例提供了一种视频解说生成方法,该视频解说生成方法包括:获取目标视频的音频及视觉信息;基于所述音频和预先训练好的自动语音识别模型,获取识别文本;将所述识别文本输入到预先训练好的语言模型中,以通过所述语言模型获取所述目标视频的解说文本;将所述视觉信息和所述解说文本输入到预先训练好的多模态模型中,以通过所述多模态模型获取所述目标视频的解说音频。本申请实施例的技术方案可以通过深度集成自动语音识别模型、语言模型和多模态模型,实现从视频到高质量解说音频的全自动化流程,适应各种复杂的解说场景,可以有效地结合不同模态的特征,如视觉和文本,合成更自然流畅且与视频内容高度匹配的解说音频,提升观众体验。
技术关键词
自动语音识别 文本 音频 视觉特征 声谱 生成方法 视频帧 多模态 主题 语义 可读存储介质 计算机程序产品 处理器通信 生成装置 标签 指令