基于多模态语音特征融合的数字人语音合成方法及系统

申请号：CN202511310001

申请日期：2025-09-15

公开号：CN120833777B

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于多模态语音特征融合的数字人语音合成方法及系统，该方法通过特征级联和多头模态交互注意力机制对多模态特征进行了加权融合，不仅仅通过特征拼接级联的方式实现模态融合，而且通过多头模态交互注意力机制实现了不同模态特征之间内在关联的显示建模，实现了多模态特征之间的深度交互融合，便于实现细粒度的声学特征控制，使模型可独立控制不同维度的声学参数，可以显著提升合成语音的自然度和个性化。

技术关键词

多模态语音交互注意力节奏特征声纹特征语音编码器短时特征声学特征文本音频生成时序数据样本级联机制多模态特征融合模板韵律模式