基于多模态语音特征融合的数字人语音合成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态语音特征融合的数字人语音合成方法及系统
申请号:CN202511310001
申请日期:2025-09-15
公开号:CN120833777B
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于多模态语音特征融合的数字人语音合成方法及系统,该方法通过特征级联和多头模态交互注意力机制对多模态特征进行了加权融合,不仅仅通过特征拼接级联的方式实现模态融合,而且通过多头模态交互注意力机制实现了不同模态特征之间内在关联的显示建模,实现了多模态特征之间的深度交互融合,便于实现细粒度的声学特征控制,使模型可独立控制不同维度的声学参数,可以显著提升合成语音的自然度和个性化。
技术关键词
多模态语音 交互注意力 节奏特征 声纹特征 语音编码器 短时特征 声学特征 文本 音频 生成时序数据 样本 级联 机制 多模态特征融合 模板 韵律模式