一种基于语音分析的视频生成方法、系统及存储介质

申请号：CN202510464423

申请日期：2025-04-14

公开号：CN120388579A

公开日期：2025-07-29

类型：发明专利

摘要

本发明涉及人工智能与多媒体技术领域，具体公开了一种基于语音分析的视频生成方法，方法包括以下步骤：对输入语音进行解析，提取多模态语音特征；将多模态语音特征输入预训练的情景关联模型，输出情景标签集合；基于输入语音中的方言特征，通过方言分类器识别地域类别，并根据地域类别从文化数据库中加载对应的视觉元素库；根据情景标签集合中的场景类型标签选择场景模板，结合情感类别标签和交互对象关系标签选择人物动作模版；基于语速变化参数计算视频元素的时序分布，并通过时序对齐算法将场景模板、人物动作模版与输入语音的节奏根据时序分布进行渲染，生成目标视频。该方法可以提高基于语音生成的视频的准确性。

技术关键词

视频生成方法多模态语音标签情景情感类别时序样本模版场景元素分类器模板视觉视频生成系统语音特征提取参数编码器

系统为您推荐了相关专利信息

一种基于虚拟试衣的智能服装设计方法

智能服装设计方法生成器网络虚拟试衣体型染色体

一种航空电磁探测悬吊系统激光雷达测姿定位方法及装置

飞行吊舱激光雷达悬吊系统坐标转换算法定位方法

低代码平台的代码及页面生成方法、系统、设备和介质

画布低代码平台页面生成方法生成代码数据接口

防止网络内容被合成篡改的方法和系统

神经网络结构采样模块算法存储程序代码身份

一种融合图结构信息的代码坏味检测方法

代码坏味检测方法基础分类器复杂度异构网络模型高维特征向量