摘要
本发明提出一种基于大模型双模式推理的知识增强型体育视频理解方法,属于视频理解领域,首先获取需要提问的体育视频以及问题文本,将体育视频、问题文本与提示词输入反应式推理智能体,反应式推理智能体根据问题文本与提示词对问题进行分类,若问题属于简单问题,则反应式推理智能体根据输入的体育视频对问题进行回答;若问题属于复杂问题,则通过深思式推理智能体进行回答,深思式推理智能体由动态运动分割器、关键片段选择器以及基于体育知识图谱的细粒度匹配器组成。本发明通过创新性地引入双模式推理系统,充分考虑了体育视频的动态性、领域特异性以及用户提问的多样性和复杂性,显著提升了(多模态)大语言模型在体育视频理解任务中的表现。