摘要
本发明涉及人工智能与多媒体技术领域,具体公开了一种基于语音分析的视频生成方法,方法包括以下步骤:对输入语音进行解析,提取多模态语音特征;将多模态语音特征输入预训练的情景关联模型,输出情景标签集合;基于输入语音中的方言特征,通过方言分类器识别地域类别,并根据地域类别从文化数据库中加载对应的视觉元素库;根据情景标签集合中的场景类型标签选择场景模板,结合情感类别标签和交互对象关系标签选择人物动作模版;基于语速变化参数计算视频元素的时序分布,并通过时序对齐算法将场景模板、人物动作模版与输入语音的节奏根据时序分布进行渲染,生成目标视频。该方法可以提高基于语音生成的视频的准确性。