基于潜空间特征融合的语音驱动数字人口型生成方法

申请号：CN202511365915

申请日期：2025-09-24

公开号：CN120876687B

公开日期：2025-12-16

类型：发明专利

摘要

本发明公开了一种基于潜空间特征融合的语音驱动数字人口型生成方法，属于人工智能与图像合成技术领域；主要提高语音驱动数字人口型生成图像的质量和时序连贯性；本发明的方案为利用语音音频和视频图像分别进行模态编码后，在图像编码器构建的潜空间中通过语音特征引导图像重建过程，生成与语音特征一致的口型变化图像帧序列；实现了从用户语音输入到数字人响应的完整流程，增强了数字人在人机交互过程中的智能化表达能力，从而实现更自然、更智能的数字人语音表达。

技术关键词

语音特征跨模态融合特征生成方法图像解码器编码模块音频图像融合方法视频卷积模块交叉注意力机制人脸检测算法矩阵图像编码器生成工具