基于多模态语音特征融合的数字人语音合成方法及系统
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
验证码登录
×
发送
登录即代表您已同意AITNT
用户协议
和
隐私政策
登录
登录成功后会自动刷新界面
AITNT公众号
AITNT APP
AITNT交流群
搜索
未登录
首页
AI中心
退出
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI 源力市场
寻求报道
基于多模态语音特征融合的数字人语音合成方法及系统
申请号:
CN202511310001
申请日期:
2025-09-15
公开号:
CN120833777B
公开日期:
2025-11-21
类型:
发明专利
摘要
本发明公开了一种基于多模态语音特征融合的数字人语音合成方法及系统,该方法通过特征级联和多头模态交互注意力机制对多模态特征进行了加权融合,不仅仅通过特征拼接级联的方式实现模态融合,而且通过多头模态交互注意力机制实现了不同模态特征之间内在关联的显示建模,实现了多模态特征之间的深度交互融合,便于实现细粒度的声学特征控制,使模型可独立控制不同维度的声学参数,可以显著提升合成语音的自然度和个性化。
技术关键词
多模态语音
交互注意力
节奏特征
声纹特征
语音编码器
短时特征
声学特征
文本
音频
生成时序数据
样本
级联
机制
多模态特征融合
模板
韵律模式