基于动态稀疏的视频理解方法、装置、设备及介质

申请号：CN202510891951

申请日期：2025-06-27

公开号：CN120747824A

公开日期：2025-10-03

类型：发明专利

摘要

本申请涉及数据处理技术领域，公开了一种基于动态稀疏的视频理解方法、装置、设备及介质，该方案通过时空特征编码器对视频帧序列进行时空特征提取和转换，能够充分保留视频的时空信息，输出具有丰富语义的视频特征。利用动态稀疏注意力机制对视频语义特征进行稀疏注意力计算，根据视频内容的时空特性动态调整注意力分配，从而准确地捕捉到视频中重要的上下文信息，减少冗余计算，有效降低视频处理时的计算复杂度，从而提高视频理解的效率。通过文本生成编码器对上下文特征向量进行分析计算，实现高效精准的视频语义理解与文本描述生成，从而提高在金融领域处理海量交易数据和医疗领域处理高分辨率医学影像应用场景下的视频理解效率。

技术关键词

视频理解方法语义特征局部时空特征视频帧编码器特征编码模型动态文本序列海量交易数据多头注意力机制融合特征特征提取模型元素可读存储介质数据处理技术处理器