摘要
基于多模态扩散的长视频角色场景解耦生成方法及系统,涉及图像处理技术领域,包括:S1、通过SigLIP编码器与DINOv2编码器合成角色与场景的高级特征;S2、将高级特征进行跨模态特征融合得到联合特征并压缩得到紧凑向量;S3、根据文本提示生成文本特征;S4、将输入视频通过因果3D卷积编码器生成潜在编码,通过线性投影矩阵后与内存状态拼接降维得到分段潜在向量序列;S5、分段潜在向量序列通过改进的3D‑UNet进行解耦感知生成,然后确定性采样后反卷积上采样重建得到RGB视频分段序列;本发明解决长视频生成中动态控制粗糙、生成长度受限与资源消耗过高的关键问题,显著提升了生成视频的质量和效率。