基于大模型双模式推理的知识增强型体育视频理解方法

申请号：CN202511263018

申请日期：2025-09-05

公开号：CN120745851B

公开日期：2025-11-07

类型：发明专利

摘要

本发明提出一种基于大模型双模式推理的知识增强型体育视频理解方法，属于视频理解领域，首先获取需要提问的体育视频以及问题文本，将体育视频、问题文本与提示词输入反应式推理智能体，反应式推理智能体根据问题文本与提示词对问题进行分类，若问题属于简单问题，则反应式推理智能体根据输入的体育视频对问题进行回答；若问题属于复杂问题，则通过深思式推理智能体进行回答，深思式推理智能体由动态运动分割器、关键片段选择器以及基于体育知识图谱的细粒度匹配器组成。本发明通过创新性地引入双模式推理系统，充分考虑了体育视频的动态性、领域特异性以及用户提问的多样性和复杂性，显著提升了（多模态）大语言模型在体育视频理解任务中的表现。

技术关键词

体育视频理解双模式文本动态匹配器滑动窗口分割器图谱多模态运动解码模块匹配模块强度推理系统大语言模型层级图像