单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG
4623点击    2025-02-14 10:04

今天向大家介绍一项来自香港大学黄超教授实验室的最新科研成果 VideoRAG。这项创新性的研究突破了超长视频理解任务中的时长限制,仅凭单张 RTX 3090 GPU (24GB)  就能高效理解数百小时的超长视频内容。


单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


  • 论文标题:VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos
  • 论文链接:https://arxiv.org/abs/2502.01549
  • 代码开源地址:https://github.com/HKUDS/VideoRAG
  • 实验室主页:https://github.com/HKUDS


VideoRAG 采用了创新的多模态知识索引框架,将这些海量视频内容浓缩为简洁、结构化的知识图谱,从而支持跨视频推理。其多模态检索范式能够有效对齐文本语义与视觉内容,确保从多个长视频中精准检索出相关片段,生成全面而精确的回答。


此外,研究团队还建立了全新的 LongerVideos 基准数据集,包含 160+ 个视频,涵盖了讲座、纪录片和娱乐等类别,为该领域的未来研究提供了有力支持。


总的来说,VideoRAG 拥有以下优势:


  • 高效理解数百小时的超长视频内容
  • 将视频内容浓缩为结构化的知识图谱
  • 采用多模态检索以精准响应查询 
  • 建立了全新的长视频基准数据集


单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


研究背景


RAG (Retrieval-Augmented Generation)技术通过在推理阶段引入外部知识,显著增强了预训练大语言模型(LLM)的能力。然而,当前成熟的 RAG 框架主要聚焦于文本领域,在视频理解任务中的应用仍面临诸多限制。视频数据包含丰富的视觉、语音和文本等多模态异构信息,尤其是在处理超长视频(如系列讲座、纪录片)时,跨视频语义关联和长时序依赖建模成为两大核心挑战。现有的端到端方法受限于上下文长度或 GPU 显存,难以高效处理长达数小时甚至更长的视频内容;而其他框架通常采用截断或分片处理策略,导致上下文信息割裂,跨视频知识整合困难。此外,如何在大规模视频库中高效检索相关内容仍是亟待解决的难题。


针对上述挑战,我们提出了一种创新的 RAG 框架 ——VideoRAG,旨在实现高效且全面的超长视频理解。在索引阶段,VideoRAG 采用双通道索引架构,通过构建文本知识图谱建模跨视频片段的语义关联与时序依赖,并结合层级化的多模态特征编码,保留细粒度的视频信息;在检索阶段,引入自适应混合检索范式,融合知识图谱与多模态特征嵌入,精准识别与查询最相关的视频内容。在首个超长跨视频理解基准数据集 LongerVideos 上的多维度评估表明,VideoRAG 展现了卓越的长视频理解能力,为复杂视频场景下的知识提取与整合提供了新的解决方案。


VideoRAG 框架设计


单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


VideoRAG 通过多模态知识索引和知识驱动的信息检索,高效地捕捉、组织和检索视频中的视觉、音频和语义信息,支持为无限时长的视频输入生成准确的响应,为理解超长视频提供了全新的解决方案。


双通道多模态视频知识索引


与传统文本文档不同,视频通过视觉、音频和文本等多模态传递信息。传统的文本 RAG 方法在视频内容理解上存在显著局限,主要体现在无法直接捕捉视觉动态、难以保持视频帧间的时间依赖性,以及难以处理视觉与文本之间的跨模态交互。VideoRAG 采用双通道架构,高效组织和索引长时间视频内容,同时保留多模态信息的语义丰富性:


  • 基于图的文本知识对齐


  • 视觉 - 文本对齐:将视频均匀划分为多个短片段,并从每个片段中均匀采样不超过 10 帧,以高效提取关键视觉元素。随后通过视觉语言模型(VLM)生成自然语言描述,捕捉对象、动作和场景动态;音频 - 文本对齐:通过自动语音识别(ASR)技术转录视频中的对话和叙述,并与视觉描述融合,生成统一的语义表示;跨视频知识图谱:基于大语言模型(LLMs)识别实体与关系,构建全局知识图谱,并支持增量式跨视频语义整合(如实体合并、动态演化),确保跨视频内容的一致性与关联性。


  • 多模态上下文编码


  • 使用多模态编码器将视觉信息与文本查询映射到同一特征空间,实现高效的语义检索,同时保留难以通过文本描述的视觉细节,如光照变化和复杂对象特征。


混合多模态检索范式


我们提出了一个创新的多模态检索方法,结合语义理解和视觉上下文,精准识别与查询相关且信息量丰富的视频片段,生成更准确的回答:


  • 文本语义匹配:通过知识图谱中的实体匹配找到相关文本块,包括查询重构、实体匹配、文本块选择和视频片段检索等步骤;
  • 视觉内容匹配:将查询重写为描述性语句,与多模态编码器编码的视频片段嵌入进行跨模态检索;
  • LLM 过滤机制:利用 LLMs 进一步评估视频片段的相关性,生成关键词以综合相关信息,确保生成的回答既符合语义连贯性,又与查询高度相关。


内容整合与响应生成


在检索到相关的视频片段后,我们实现了两阶段的内容提取过程。首先,我们通过 LLMs 从查询中提取关键词,然后与采样帧一同作为 VLM 的输入,生成更详细的视觉描述。最终,VideoRAG 利用通用的大语言模型(如 GPT-4 或 DeepSeek )根据查询和检索到的内容生成准确的响应。


实验评估


我们在首个超长跨视频理解基准数据集 LongerVideos 上对 VideoRAG 进行了全面的实证评估,涵盖了与现有 RAG 方法(NaiveRAG、GraphRAG、LightRAG)、支持超长视频输入的 LVMs(LLaMA-VID、NotebookLM、VideoAgent)的性能对比,以及模型组件的消融实验(-Graph、-Vision)和具体案例分析。


LongerVideos 基准数据集与评估指标


我们构建了 LongerVideos 数据集,包含 164 个视频(总时长超过 134 小时),涵盖讲座、纪录片和娱乐三大类别,最长视频是完整的《黑悟空》游戏通关攻略视频,长达约 21.36 小时。LongerVideos 支持对跨视频推理能力的评估,打破了当前视频问答基准数据集中普遍存在的单视频时长不足 1 小时和单视频理解场景的限制。



单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


我们采用两种评估协议来衡量模型的性能:


  • 胜率评估:使用基于 LLM 的判断,通过 GPT-4o-mini 对不同模型生成的回答进行排名,并提供解释性反馈;
  • 定量评估:在胜率比较的基础上,加入分数评定,为每个查询设定标准答案,并采用 5 分制(1 为最差,5 为最好)进行评估。


我们从五个维度对模型进行评估:


  • 全面性(Comprehensiveness):评估回答覆盖的广度;
  • 赋能性(Empowerment):评估回答如何帮助读者更好地理解和做出判断;
  • 可信度(Trustworthiness):评估回答的可信度,包括细节信息的充分性和与常识的一致性;
  • 深度(Depth):评估回答是否具备深入分析;
  • 信息密度(Density):评估回答中相关信息的浓缩程度,避免冗余。


单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


性能对比


  • 与 RAG 方法对比(使用胜率评估):


  • VideoRAG 的卓越性能:VideoRAG 在 所有维度指标和所有视频类型 上均显著优于 NaiveRAG、GraphRAG 和 LightRAG 等基线。说明基于知识图与多模态上下文编码的索引能够有效捕捉和组织视频中的视觉动态和语义信息,此外混合多模态检索范式通过将文本语义匹配与基于视觉内容嵌入的检索相结合,有效提升了跨视频检索精度;进一步基线模型对比分析:相较于 NaiveRAG,VideoRAG 在全面性和赋能性维度具有更为显著的优势,源于我们通过高效的知识索引框架整合跨视频信息,实现更全面的检索与生成。相较于 GraphRAG 和 LightRAG,VideoRAG 依托多模态上下文融合和查询感知检索,在视觉 - 文本信息对齐和精准内容选择上更具优势,使回答更具语境连贯性和理解深度,在知识驱动的视频问答任务中显著领先。



单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


  • 与支持超长视频输入的 LVMs 模型对比(使用定量评估,以 NaiveRAG 为基线):VideoRAG 在 所有维度指标和所有视频类型 上均显著优于 LLaMA-VID、NotebookLM 和 VideoAgent 等基线,改进主要归因于:


  • 增强的长上下文建模:通过图增强的多模态索引与检索机制,VideoRAG 有效处理跨视频知识连接和依赖关系,超越了 LLaMA-VID 等模型在处理长视频时的计算限制;卓越的多模态融合:VideoRAG 擅长融合视觉、音频和文本信息,提供更精细的跨模态对齐与全面理解,明显优于专注于单一模态的模型,如 VideoAgent(视觉)和 NotebookLM(语音转录)。


单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


消融实验


为了评估 VideoRAG 框架中多模态索引和检索设计的有效性,我们进行了两种模型变体的消融实验:变体 1(-Graph):去除了基于图的索引 - 检索管道,限制了模型在跨视频关系建立上的能力;变体 2(-Vision):去除了多模态编码器中的视觉索引和检索组件。实验结果表明:


  • 去除图形模块(-Graph):性能显著下降,验证了基于图的索引 - 检索机制在捕捉复杂的跨视频关系和建立跨视频知识依赖方面的关键作用;
  • 去除视觉模块(-Vision):性能显著下降,证明了视觉信息处理和多模态上下文融合对视频理解至关重要性。



单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


案例分析


为了全面评估 VideoRAG 的能力,我们对查询 “评分者在强化微调中的作用” 进行案例分析。该查询来自 OpenAI 2024 年发布的 12 天视频系列(时长约 3.43 小时),目标信息位于第 2 天的内容中。


我们展示了 VideoRAG 的响应及对应检索到的视频片段。分析表明,VideoRAG 成功提取了第 2 天的相关内容:评分员的基本概念、评分系统的操作机制、部分打分示例,并利用检索信息构建详细且有据可依的答案。


单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


与 LightRAG 的对比分析显示,VideoRAG 在细节和技术深度上明显优于 LightRAG。虽然两者都描述了评分系统的核心概念,但 LightRAG 在解释 “评分员评分机制” 时缺乏关键技术细节,而 VideoRAG 提供了更全面且精准的技术解释。


单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


该案例研究验证了 VideoRAG 在以下三个方面的有效性:


  • 精确构建知识图谱,捕捉复杂关系;
  • 高精度的多模态信息检索;
  • 有效处理和综合多个超长视频中的信息。


结论


本文介绍了 VideoRAG,一个针对超长视频理解的框架。通过将基于知识图谱的文本信息和多模态上下文编码无缝集成,VideoRAG 能高效处理、索引和检索长视频中的丰富信息。


在 LongerVideos 基准上的实证评估表明,VideoRAG 在多个维度上超越了现有的 RAG 方法和长视频理解模型,其核心贡献包括:


  • 精确的视频知识结构构建:有效组织跨视频信息,捕捉复杂关系;
  • 高效的多模态信息检索:融合视觉、音频和文本信息,提供更准确、细致的检索结果;
  • 强大的长视频处理能力:突破上下文长度和计算限制,处理多个超长视频的跨视频信息。



文章来自微信公众号 “ 机器之心 ”


单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG


关键词: VideoRAG , AI , AI视频 , 模型训练
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
语音转录

【开源免费】Whisper是由openai出品的语音转录大模型,它可以应用在会议记录,视频字幕生成,采访内容整理,语音笔记转文字等各种需要将声音转出文字等场景中。

项目地址:https://github.com/openai/whisper

在线使用:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales