一种通过增量信息感知增强视频描述生成的方法及系统

申请号：CN202510730429

申请日期：2025-06-03

公开号：CN120640092A

公开日期：2025-09-12

类型：发明专利

摘要

本发明提出了一种通过增量信息感知增强视频描述生成的方法及系统。该方法通过构建包含语义增量信息感知模型和结构增量信息感知模型的视频描述生成模型，分别捕捉视频中的详细语义信息和关键结构内容，量化所有描述的语义和结构信息，并在训练过程中利用低信息量描述监督基本编码器以捕获基础视频信息，利用高信息量描述共同监督基本编码器和增量信息编码器，从而引导模型感知和利用从基础信息到更丰富信息的增量信息。在推理阶段，通过融合语义增量信息感知模型和结构增量信息感知模型来补偿语义增量信息感知模型在理解视频主要信息方面的局限性，提高了视频描述生成的准确率和语义丰富度。

技术关键词

信息编码器解码器融合语义视频帧生成结构输入结构模块全局特征提取基础序列阶段参数周期数据文本

系统为您推荐了相关专利信息

基于VAE和动态规划的梯级水库发电调度方法及系统

梯级水库发电调度方法逼近算法规划编码器

协同文本提示与视觉修复的降质图像缺陷检测方法及系统

图像缺陷检测方法视觉特征文本特征向量交叉注意力机制鲁棒视觉

一种校园暴力预警系统

音频视频识别时间段预警系统校园

基于降噪编码器的手动开关运行状态监测方法

开关运行状态多时间尺度模型监测方法编码器软阈值函数

基于注意力增强的端到端语音识别方法、程序产品和设备

语音识别方法注意力语音识别网络解码器声学特征