一种多维增强的开放词汇视频实例分割方法

申请号：CN202511456527

申请日期：2025-10-13

公开号：CN120913135B

公开日期：2025-12-02

类型：发明专利

摘要

本发明提供了一种多维增强的开放词汇视频实例分割方法，包括：步骤1，通过数学建模与分析，提出一种新型的开放词汇分割思想；步骤2，对用户输入的视频进行预处理，进行帧采样，并通过分别强化类别文本和图像特征、查询向量的交互，在Transformer架构中实现类别相关的分割；步骤3，采用实例驱动的TopK时序匹配策略，提高跨帧匹配的稳定性与准确性；步骤4，通过多尺度特征融合提升类别识别能力，优化目标分类。本发明能够高效进行开放词汇视频实例分割，并广泛应用于视频监控、自动驾驶、视频索引等领域，推动视频理解与推理技术的发展。

技术关键词

记忆存储单元对象视频实例分割方法文本编码器像素融合特征图像编码器时序多尺度特征融合解码器置信度阈值语义预训练模型文本特征向量自然语言融合策略