摘要
本发明公开了一种基于扩散模型的智能视频动态编辑方法,包括:使用大语言模型对视频编辑指令进行语义分析得到修改对象和修改内容;使用物体检测模型和分割模型对视频进行检测和分割,得到目标对象图像,生成边缘蒙版集和主体蒙版集;将修改对象/内容内容和图像输入CLIP模型得到CLIP潜向量;将视频输入U‑Net编码器生成视频的潜空间表示;将主体蒙版集、CLIP潜向量和潜空间表示输入第一内容控制模块生成第一起始潜向量,使用潜空间优化得到第一潜向量;将边缘蒙版集和第一潜向量输入第二内容控制模块得到第二起始潜向量,使用潜空间优化得到第二潜向量,使用U‑Net解码器进行解码出最终视频;本发明能够为不同领域的用户提供灵活、高效的视频编辑解决方案。