基于多模态扩散的长视频角色场景解耦生成方法及系统

申请号：CN202511067463

申请日期：2025-07-31

公开号：CN120583276B

公开日期：2025-09-30

类型：发明专利

摘要

基于多模态扩散的长视频角色场景解耦生成方法及系统，涉及图像处理技术领域，包括：S1、通过SigLIP编码器与DINOv2编码器合成角色与场景的高级特征；S2、将高级特征进行跨模态特征融合得到联合特征并压缩得到紧凑向量；S3、根据文本提示生成文本特征；S4、将输入视频通过因果3D卷积编码器生成潜在编码，通过线性投影矩阵后与内存状态拼接降维得到分段潜在向量序列；S5、分段潜在向量序列通过改进的3D‑UNet进行解耦感知生成，然后确定性采样后反卷积上采样重建得到RGB视频分段序列；本发明解决长视频生成中动态控制粗糙、生成长度受限与资源消耗过高的关键问题，显著提升了生成视频的质量和效率。

技术关键词

高层语义特征纹理特征卷积编码器分段视频段卷积解码器路径特征内存场景序列身份生成噪声图像关键帧文本运动特征

系统为您推荐了相关专利信息

一种DR图像的分析方法、设备、介质和产品

图像指标分析方法图像分析结构三维模型纹理特征

基于数字化建模与滑模优化的斜井模架设计方法

分段施工模架加权最小二乘法地理信息系统三维激光雷达

基于粮食仓储的三维资源动态分配方法和系统

云渲染渲染视频流主机中心服务器数字孪生模型

ICL晶体植入适配性判断方法、系统、电子设备和存储介质

模糊隶属度函数模糊支持向量机性判断方法信息熵风险预测模型

一种矿工驾驶员疲劳征兆检测方法

心率疲劳驾驶检测方法人脸特征点提取深度学习模型困难样本挖掘