一种基于跨模态协同学习的视频生成方法及系统

申请号：CN202511324520

申请日期：2025-09-17

公开号：CN120835216A

公开日期：2025-10-24

类型：发明专利

摘要

本发明公开了一种基于跨模态协同学习的视频生成方法及系统，属于视频生成与多模态数据处理领域。接收多模态输入并提取多模态特征；通过改进的条件扩散模型处理多模态特征，生成视频序列；改进的条件扩散模型的每一个DiT块中包括并列设置的相机感知注意力模块和解耦交叉注意力模块，两个注意力模块均输入由图像序列潜变量处理后得到的视频潜特征，输出加权后代替原始条件扩散模型中的交叉注意力模块的输出；采用低秩自适应技术对改进的条件扩散模型进行轻量化微调，并在训练过程中引入多阶段课程学习策略。实验结果表明，本发明在多任务视频生成中表现出优异性能，能够实现高质量、精细化的场景主体和摄像机运动联合控制。

技术关键词

视频生成方法注意力相机跨模态多模态特征全局视觉特征运动轨迹信息生成视频序列模块多阶段语义特征图像解码器图像编码器矩阵文本变量