摘要
本发明提出了一种通过增量信息感知增强视频描述生成的方法及系统。该方法通过构建包含语义增量信息感知模型和结构增量信息感知模型的视频描述生成模型,分别捕捉视频中的详细语义信息和关键结构内容,量化所有描述的语义和结构信息,并在训练过程中利用低信息量描述监督基本编码器以捕获基础视频信息,利用高信息量描述共同监督基本编码器和增量信息编码器,从而引导模型感知和利用从基础信息到更丰富信息的增量信息。在推理阶段,通过融合语义增量信息感知模型和结构增量信息感知模型来补偿语义增量信息感知模型在理解视频主要信息方面的局限性,提高了视频描述生成的准确率和语义丰富度。