一种基于跨模态协同学习的视频生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于跨模态协同学习的视频生成方法及系统
申请号:CN202511324520
申请日期:2025-09-17
公开号:CN120835216A
公开日期:2025-10-24
类型:发明专利
摘要
本发明公开了一种基于跨模态协同学习的视频生成方法及系统,属于视频生成与多模态数据处理领域。接收多模态输入并提取多模态特征;通过改进的条件扩散模型处理多模态特征,生成视频序列;改进的条件扩散模型的每一个DiT块中包括并列设置的相机感知注意力模块和解耦交叉注意力模块,两个注意力模块均输入由图像序列潜变量处理后得到的视频潜特征,输出加权后代替原始条件扩散模型中的交叉注意力模块的输出;采用低秩自适应技术对改进的条件扩散模型进行轻量化微调,并在训练过程中引入多阶段课程学习策略。实验结果表明,本发明在多任务视频生成中表现出优异性能,能够实现高质量、精细化的场景主体和摄像机运动联合控制。
技术关键词
视频生成方法 注意力 相机 跨模态 多模态特征 全局视觉特征 运动轨迹信息 生成视频序列 模块 多阶段 语义特征 图像解码器 图像编码器 矩阵 文本 变量
系统为您推荐了相关专利信息
电池汇流排 三维模型 激光切割方法 激光头运动轨迹 照片
场景重建方法 相机 动态 像素点 深度图
智能推荐方法 特征提取模块 归一化模块 样本 数据
识别方法 切片 转录组学 组织 聚类方法
策略生成方法 拓扑图 注意力神经网络 关系 门控循环单元