基于多模态扩散的长视频角色场景解耦生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态扩散的长视频角色场景解耦生成方法及系统
申请号:CN202511067463
申请日期:2025-07-31
公开号:CN120583276B
公开日期:2025-09-30
类型:发明专利
摘要
基于多模态扩散的长视频角色场景解耦生成方法及系统,涉及图像处理技术领域,包括:S1、通过SigLIP编码器与DINOv2编码器合成角色与场景的高级特征;S2、将高级特征进行跨模态特征融合得到联合特征并压缩得到紧凑向量;S3、根据文本提示生成文本特征;S4、将输入视频通过因果3D卷积编码器生成潜在编码,通过线性投影矩阵后与内存状态拼接降维得到分段潜在向量序列;S5、分段潜在向量序列通过改进的3D‑UNet进行解耦感知生成,然后确定性采样后反卷积上采样重建得到RGB视频分段序列;本发明解决长视频生成中动态控制粗糙、生成长度受限与资源消耗过高的关键问题,显著提升了生成视频的质量和效率。
技术关键词
高层语义特征 纹理特征 卷积编码器 分段 视频段 卷积解码器 路径特征 内存 场景 序列 身份 生成噪声 图像 关键帧 文本 运动特征
系统为您推荐了相关专利信息
图像指标 分析方法 图像分析 结构三维模型 纹理特征
分段 施工模架 加权最小二乘法 地理信息系统 三维激光雷达
云渲染 渲染视频流 主机 中心服务器 数字孪生模型
模糊隶属度函数 模糊支持向量机 性判断方法 信息熵 风险预测模型
心率 疲劳驾驶检测方法 人脸特征点提取 深度学习模型 困难样本挖掘