摘要
本发明提供了一种多维增强的开放词汇视频实例分割方法,包括:步骤1,通过数学建模与分析,提出一种新型的开放词汇分割思想;步骤2,对用户输入的视频进行预处理,进行帧采样,并通过分别强化类别文本和图像特征、查询向量的交互,在Transformer架构中实现类别相关的分割;步骤3,采用实例驱动的TopK时序匹配策略,提高跨帧匹配的稳定性与准确性;步骤4,通过多尺度特征融合提升类别识别能力,优化目标分类。本发明能够高效进行开放词汇视频实例分割,并广泛应用于视频监控、自动驾驶、视频索引等领域,推动视频理解与推理技术的发展。