基于潜空间特征融合的语音驱动数字人口型生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于潜空间特征融合的语音驱动数字人口型生成方法
申请号:CN202511365915
申请日期:2025-09-24
公开号:CN120876687B
公开日期:2025-12-16
类型:发明专利
摘要
本发明公开了一种基于潜空间特征融合的语音驱动数字人口型生成方法,属于人工智能与图像合成技术领域;主要提高语音驱动数字人口型生成图像的质量和时序连贯性;本发明的方案为利用语音音频和视频图像分别进行模态编码后,在图像编码器构建的潜空间中通过语音特征引导图像重建过程,生成与语音特征一致的口型变化图像帧序列;实现了从用户语音输入到数字人响应的完整流程,增强了数字人在人机交互过程中的智能化表达能力,从而实现更自然、更智能的数字人语音表达。
技术关键词
语音特征 跨模态融合特征 生成方法 图像解码器 编码模块 音频 图像融合方法 视频 卷积模块 交叉注意力机制 人脸检测算法 矩阵 图像编码器 生成工具