摘要
本公开提供了一种视频生成方法、装置、电子设备、存储介质和程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于数字人、基于人工智能的内容生成等场景。该方法包括:获取描述文本的文本特征、参考图像中虚拟形象的形象特征和音频的音频特征,描述文本指示了基于音频驱动虚拟形象的动作描述信息;将角色特征与音频特征绑定,得到目标音频特征,角色特征与参考图像中对应虚拟形象相关联,角色特征用于指示目标音频特征与形象特征之间的关联关系;基于文本特征、形象特征和目标音频特征生成目标视频,目标视频包括基于音频驱动虚拟形象按照动作描述信息发出声音的多个视频帧。