一种基于语音分析的视频生成方法、系统及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于语音分析的视频生成方法、系统及存储介质
申请号:CN202510464423
申请日期:2025-04-14
公开号:CN120388579A
公开日期:2025-07-29
类型:发明专利
摘要
本发明涉及人工智能与多媒体技术领域,具体公开了一种基于语音分析的视频生成方法,方法包括以下步骤:对输入语音进行解析,提取多模态语音特征;将多模态语音特征输入预训练的情景关联模型,输出情景标签集合;基于输入语音中的方言特征,通过方言分类器识别地域类别,并根据地域类别从文化数据库中加载对应的视觉元素库;根据情景标签集合中的场景类型标签选择场景模板,结合情感类别标签和交互对象关系标签选择人物动作模版;基于语速变化参数计算视频元素的时序分布,并通过时序对齐算法将场景模板、人物动作模版与输入语音的节奏根据时序分布进行渲染,生成目标视频。该方法可以提高基于语音生成的视频的准确性。
技术关键词
视频生成方法 多模态语音 标签 情景 情感类别 时序 样本 模版 场景 元素 分类器 模板 视觉 视频生成系统 语音特征提取 参数 编码器
系统为您推荐了相关专利信息
智能服装设计方法 生成器网络 虚拟试衣 体型 染色体
飞行吊舱 激光雷达 悬吊系统 坐标转换算法 定位方法
画布 低代码平台 页面生成方法 生成代码 数据接口
神经网络结构 采样模块 算法 存储程序代码 身份
代码坏味检测方法 基础分类器 复杂度 异构网络模型 高维特征向量