一种基于自适应稀疏记忆与语言模型的长期视频理解系统

申请号：CN202510594221

申请日期：2025-05-09

公开号：CN120526345A

公开日期：2025-08-22

类型：发明专利

摘要

本发明提供一种基于自适应稀疏记忆与语言模型的长期视频理解系统，包括：用于从长视频中提取视觉特征的视觉编码器；用于存储和检索历史视频内容的视觉特征的记忆库模块；用于动态管理记忆库模块的稀疏自适应模块，记忆库模块通过查询变换器Q‑Former与多模态大语言模型进行交互，用于增量式处理处理视频数据，将视觉特征映射到语言空间。本发明通过引入自适应稀疏记忆机制，能够有效处理长期视频序列，且能够动态压缩冗余特征，保留关键信息，从而实现对长视频的高效分析；本发明在多个任务具有较高的准确率，而且通过稀疏自适应机制，能够动态管理记忆库，减少冗余特征的处理，从而降低了计算开销，提升了系统的整体效率。

技术关键词

视觉特征理解系统交叉注意力机制大语言模型变换器冗余特征对齐模块流媒体视频数据动态内存生成自然语言时间序列特征多模态信息解码机制记忆机制

系统为您推荐了相关专利信息

一种基于HGT网络的车辆多模态轨迹预测方法

车辆轨迹多层感知机感知环境变化解码模块

一种基于反省链推理的产品评论检测方法

评论检测方法情感特征大语言模型生成特征推理机制

一种基于机器视觉的电铲斗齿识别系统

识别系统磁控行程开关液压压力传感器双流神经网络多模态

一种医学信息多智能体专家思维链协同推理方法及系统

大语言模型推理方法输出医学信息信息处理机制

基于多模态多尺度交叉注意力的目标计数方法及系统

视觉特征计数方法嵌入特征交叉注意力机制模态特征