一种基于姿势对抗网络的人脸视频生成方法及系统

申请号：CN202410807403

申请日期：2024-06-21

公开号：CN118379777B

公开日期：2024-11-22

类型：发明专利

摘要

本发明公开了一种基于姿势对抗网络的人脸视频生成方法及系统，涉及图像处理技术领域，方法包括：构建人脸视频生成模型，包括图像编码器、音频编码器、头部运动预测模块、姿势编码器和解码器，所述人脸视频生成模型接收人脸图像和语音音频，生成人脸说话视频；获取训练数据集并对人脸视频生成模型进行预训练；构建唇型同步判别器作为判别器，对预训练人脸视频生成模型进行生成对抗训练；利用训练好的人脸视频生成模型实现人脸视频生成。本发明利用音频信号的动态特性对头部运动进行建模，并结合生成对抗网络与唇型同步判别器提高人脸视频的唇形同步精度，同时兼顾视频的逼真度，使得其更加真实、自然，从而为各种应用场景提供了更多的灵活性。

技术关键词

视频生成模型双向长短期记忆网络姿势音频编码器视频生成方法音频特征人脸图像提取图像编码器语音特征序列正面人脸模块视频生成系统运动