一种基于自适应稀疏记忆与语言模型的长期视频理解系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于自适应稀疏记忆与语言模型的长期视频理解系统
申请号:CN202510594221
申请日期:2025-05-09
公开号:CN120526345A
公开日期:2025-08-22
类型:发明专利
摘要
本发明提供一种基于自适应稀疏记忆与语言模型的长期视频理解系统,包括:用于从长视频中提取视觉特征的视觉编码器;用于存储和检索历史视频内容的视觉特征的记忆库模块;用于动态管理记忆库模块的稀疏自适应模块,记忆库模块通过查询变换器Q‑Former与多模态大语言模型进行交互,用于增量式处理处理视频数据,将视觉特征映射到语言空间。本发明通过引入自适应稀疏记忆机制,能够有效处理长期视频序列,且能够动态压缩冗余特征,保留关键信息,从而实现对长视频的高效分析;本发明在多个任务具有较高的准确率,而且通过稀疏自适应机制,能够动态管理记忆库,减少冗余特征的处理,从而降低了计算开销,提升了系统的整体效率。
技术关键词
视觉特征 理解系统 交叉注意力机制 大语言模型 变换器 冗余特征 对齐模块 流媒体视频数据 动态 内存 生成自然语言 时间序列特征 多模态信息 解码机制 记忆机制
系统为您推荐了相关专利信息
车辆 轨迹 多层感知机 感知环境变化 解码模块
评论检测方法 情感特征 大语言模型 生成特征 推理机制
识别系统 磁控行程开关 液压压力传感器 双流神经网络 多模态
大语言模型 推理方法 输出医学信息 信息处理 机制
视觉特征 计数方法 嵌入特征 交叉注意力机制 模态特征