摘要
本发明公开了一种基于跨模态协同学习的视频生成方法及系统,属于视频生成与多模态数据处理领域。接收多模态输入并提取多模态特征;通过改进的条件扩散模型处理多模态特征,生成视频序列;改进的条件扩散模型的每一个DiT块中包括并列设置的相机感知注意力模块和解耦交叉注意力模块,两个注意力模块均输入由图像序列潜变量处理后得到的视频潜特征,输出加权后代替原始条件扩散模型中的交叉注意力模块的输出;采用低秩自适应技术对改进的条件扩散模型进行轻量化微调,并在训练过程中引入多阶段课程学习策略。实验结果表明,本发明在多任务视频生成中表现出优异性能,能够实现高质量、精细化的场景主体和摄像机运动联合控制。