视频生成方法、装置、电子设备、存储介质和程序产品

申请号：CN202511319388

申请日期：2025-09-15

公开号：CN121000952A

公开日期：2025-11-21

类型：发明专利

摘要

本公开提供了一种视频生成方法、装置、电子设备、存储介质和程序产品，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于数字人、基于人工智能的内容生成等场景。该方法包括：获取描述文本的文本特征、参考图像中虚拟形象的形象特征和音频的音频特征，描述文本指示了基于音频驱动虚拟形象的动作描述信息；将角色特征与音频特征绑定，得到目标音频特征，角色特征与参考图像中对应虚拟形象相关联，角色特征用于指示目标音频特征与形象特征之间的关联关系；基于文本特征、形象特征和目标音频特征生成目标视频，目标视频包括基于音频驱动虚拟形象按照动作描述信息发出声音的多个视频帧。

技术关键词

音频特征样本视频生成模型视频帧视频生成方法文本多头注意力机制编码向量动作特征图像融合特征标签时序特征视频生成装置输入模块电子设备关系处理器