小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

7757点击 2025-01-26 12:21

检索增强生成（RAG）虽好，但一直面临着资源消耗大、部署复杂等技术壁垒。

近日，香港大学黄超教授团队提出MiniRAG，成功将RAG技术的应用门槛降至1.5B参数规模，实现了算力需求的大幅降低。这一突破性成果不仅为边缘计算设备注入新活力，更开启了基于小模型轻量级RAG的探索。

研究团队开发的这套MiniRAG系统采用小模型架构，实现了轻量级的检索增强生成功能。通过本地部署的方式，既降低了资源消耗，又能妥善保护用户隐私。

为验证系统在现实环境下的实用性，团队专门设计了LiHua-World评测数据集，这套数据集包含了个人通讯、信息检索等日常应用场景的模拟数据，为小模型RAG性能评估提供了系统化的测试标准。

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

模型的性能评测评估了不同框架在迁移至小模型时的适应能力差异：GraphRAG完全无法保持基本功能，LightRAG的表现锐减近半，而MiniRAG即便在轻量化后依然保持了较高水准，最优情况下性能仅下降不到1%，最差情况也仅降低21%左右。值得关注的是，MiniRAG在显著节省存储空间的同时（仅需原来25%），仍能维持如此稳定的输出质量。

MiniRAG架构设计

针对传统RAG系统过度依赖大型语言模型的问题，研究团队提出了新的MiniRAG框架。这一设计摒弃了依赖大模型处理复杂语义理解和多步推理的传统路线，转而构建了一套适配小型语言模型特点的精简架构。

通过深入研究，团队发现小型语言模型虽然在复杂认知任务上存在局限，但具有三个可供充分利用的优势特性：

在模式识别和局部文本处理等基础任务上表现突出借助结构化信息的引入可显著提升其语义理解能力通过将复杂任务分解为简单子任务的策略，能够保证系统稳定可靠运行

基于这些发现，研究团队开发了两项核心技术创新：

异构图索引：优化信息组织结构，提升检索精确度轻量级知识检索：确保高效准确的信息获取

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

基于小模型的语义检索机制

为突破端侧智能检索的瓶颈，MiniRAG团队构建了一套全新的语义感知框架。这套系统将离散的文本信息与结构化的实体知识融为一体，构建成一张动态感知的智能网络，实现了检索效率的质的飞跃。

文本语义分析：识别并存储文档中的核心要素，包括时间、地点、事件描述和领域概念文本Chunk融合：维护原始段落的完整性，保留必要的上下文信息

这种设计让系统在检索时可以充分利用结构化特征和原文信息。通过并行匹配策略，既提升了检索的准确度，又有效避免了小模型在语义理解上的局限性，使端侧RAG应用更加实用可靠。

轻量级知识检索架构

端侧RAG应用面临着独特的挑战：计算资源受限且需要保护数据隐私，这使得传统的大模型方案难以落地。基于此，MiniRAG提出了一套轻量化的图式检索方案，通过优化的语义分析和简化的嵌入技术，在保证效果的同时大幅降低了系统开销。

检索框架主要包含两个关键设计：

查询语义映射： 系统采用精简的语义分析流程，专注于提取查询中的关键实体和逻辑关系。这种轻量级的处理方式充分发挥了小模型在特定任务上的优势，确保检索过程快速高效。拓扑增强检索：检索过程分为两个环节，先基于语义特征快速定位核心信息点，再通过异质图结构化的关联分析扩展相关内容，实现准确和全面的信息获取。

这种设计既保证了检索质量，又很好地适应了端侧环境的资源约束。相比传统方案，具有更强的实用性和可扩展性。

模拟真实端侧场景的评测数据集: “假如你是LiHua…”

为了更准确地评估端侧RAG系统的实际表现，团队开发了一个贴近现实的评测数据集。这个名为LiHua-World的数据集模拟了一位普通用户”李华”在移动设备上产生的各类信息记录，包括社交对话、运动日志、休闲娱乐和日程安排等丰富内容。

数据集涵盖了从单一信息查询到多层次关联分析的各类任务。通过还原移动设备的真实使用场景，LiHua-World不仅体现了端侧应用的实际需求，更建立起一个完整的评测体系，为端侧RAG技术的发展和优化提供了可靠的实验基准。

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

实验评估

团队通过实验设计对MiniRAG系统进行了性能评测，重点关注其在端侧实际应用场景中的表现。评估工作主要从三个层面展开：

整体性能评估 - 团队选取了当前主流的移动端RAG解决方案作为对照组，从检索质量、运行效率和资源占用等维度进行了量化对比，全面衡量系统的综合表现模块效能分析：深入探索MiniRAG核心组件的性能贡献，包括语义感知异构图索引机制的检索效果、轻量级检索策略的计算开销，以及各模块间的协同效应实际场景案例研究：实验中团队考察系统处理复杂信息检索和多步推理等高难度任务的能力。通过实际案例的详细分析，直观展示了MiniRAG在真实环境中的应用价值和优势

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

性能评估结果

实验重点考察了各类RAG系统在适配小型语言模型(SLMs)时的表现差异。测试结果显示，传统方案在这一场景下普遍面临严峻挑战：以LightRAG为例，系统整体效果大幅下滑，性能降幅接近一半。更令人担忧的是，GraphRAG在小模型环境下完全丧失了基本功能。这些现象反映出现有RAG架构过度依赖大模型的计算能力。

相较之下，MiniRAG通过优化的图索引设计和创新的检索机制，有效地解决了这一技术瓶颈。实验数据令人振奋：在迁移至小型语言模型的过程中，系统性能最大降幅仅为两成左右，个别任务类型的性能甚至基本保持不变（降幅不足1%）。这充分证明了MiniRAG在轻量化场景下的独特优势和较强适应能力。

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

存储效率评测

经过详细的性能测试，MiniRAG在资源优化方面展现出显著优势。对比使用gpt-4-mini的LightRAG基准系统，团队的方案仅占用四分之一的存储空间就达到了相近的性能指标。这种显著的存储压缩（降低约75%）并未影响系统的检索质量，说明了团队在架构设计上的价值。

消融实验分析

团队制定了一套系统化的评测方案，旨在深入分析各核心模块对整体性能的具体贡献。评测分为两个主要部分：

首先是索引机制测试，我们将系统中的异构图索引替换为基于语义描述的传统方案（简记为-实验），这类方案与现有主流系统采用相似的处理思路，主要通过模型的语义理解来构建实体和关系的描述表示。

其次是检索流程测试，通过在图检索环节选择性地禁用不同功能组件（简记为-实验），我们能够准确衡量每个模块的独立贡献。这种细粒度的实验设计为评估创新组件的实际价值提供了可靠依据。

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

实验结果表明：

基于小语言模型RAG的挑战。实验数据充分揭示了传统索引方法在小模型环境下的局限性。当我们用基于文本语义的传统索引技术（-测试）替换MiniRAG的创新方案时，系统表现大幅衰退。这一结果印证了我们的理论推测：小型语言模型在处理复杂知识结构和深层语义理解时确实存在天然瓶颈。

Reasoning Path Discovery的有效性。进一步的功能模块测试也带来了重要发现。实验表明，无论是剔除边际关联信息（-）还是移除块级节点（-），都会对系统效果造成显著影响。这些关键组件不仅通过智能路径推理提升了查询准确度，还有效克服了小型语言模型在知识处理上的固有不足。这双重优势凸显了MiniRAG架构设计的独特价值。

实际案例分析

以下通过一个富有挑战性的餐厅识别场景，展示MiniRAG如何在实际应用中充分发挥其技术优势，尤其在处理多维度信息检索方面的出色表现。

挑战：复杂查询解析的困境

研究团队选取了一个具有挑战性的测试案例，查询内容为：Wolfgang和Li Hua为庆祝Wolfgang升职而共进晚餐的那家意大利餐厅叫什么名字？这一查询涉及多重约束条件，要求系统能从在线聊天数据中准确识别特定意大利餐厅及其相关上下文。尽管LightRAG采用了phi-3.5-mini-instruct模型，但受限于小型语言模型的固有局限性，特别是在提取high-level信息和处理图索引噪声方面的不足，导致其检索效果不够理想。

MiniRAG的解决方案

MiniRAG通过其独特的查询引导推理路径发现机制成功应对了上述挑战。系统利用异构图索引结构，首先预测答案类型（如”社交互动”或”地点”），然后通过策略性分解查询要素（专注于”意大利场所”和”餐厅”语境），结合目标实体匹配，实现了精确且具有上下文关联的知识检索。这种结构化推理方法使MiniRAG能够精确导航知识空间，最终成功定位目标餐厅——Venedia Grancaffe。

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

结论

MiniRAG是一款轻量级的检索增强生成系统，成功解决了小型语言模型(SLMs)在传统RAG框架中的应用限制。该系统采用创新的异构图索引架构和轻量级启发式检索机制，有效整合了文本与图式方法的优势，大幅降低了对模型能力的依赖要求。实验结果表明，基于SLMs的MiniRAG性能可与大语言模型方案媲美。

为促进边缘设备RAG技术的发展，研究团队同时发布了首个专门的评估基准数据集，重点覆盖个人通信和多约束查询等实际应用场景。这一研究不仅代表着端侧RAG系统的重要突破，也为注重隐私保护和资源效率的边缘AI应用开创了新的可能。

项目链接: https://github.com/HKUDS/MiniRAG

论文链接: https://arxiv.org/abs/2501.06713

实验室主页: https://github.com/HKUDS

文章来自微信公众号 “ 量子位 ”，作者 MiniRAG团队

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

关键词: RAG , 检索增强 , MiniRAG , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI