Dify v1.1.0 发布：用元数据给知识库"贴标签"，RAG 检索效率翻倍

11364点击 2025-03-18 21:13

大家好，我是 Dify 产品团队的 Yawen。今天，我们很高兴地宣布发布 Dify v1.1.0，并推出了以“元数据”作为知识过滤器的新功能。通过利用自定义的元数据属性，元数据过滤能够提升知识库中相关数据的检索效率和准确度。过去，用户只能在庞大的数据集中进行搜索，无法根据特定需求进行筛选或控制访问，难以快速锁定最相关的信息。而在引入元数据后，相当于给数据打上标签并进行归类，大幅度提高了检索的效率和准确性。对于在 RAG（检索增强生成）场景下需要管理海量信息的用户来说，元数据更是至关重要，因为它能帮助更有效地管理与访问信息。

元数据过滤是什么？

元数据本质上就是“关于数据的数据”。它为主要数据提供了额外的背景或属性标签，使搜索和检索更加精确。例如，在文档管理系统中，元数据可能包括文档名称、作者、创建日期等。通过这些结构化信息，系统能够基于特定条件进行筛选，从而更准确地检索到相关内容。

Dify v1.1.0 发布：用元数据给知识库

元数据过滤：让 RAG 应用如虎添翼

元数据过滤能够显著提高 RAG 应用搜索的准确度，帮助用户快速定位所需文档并减少无关结果。它通过“访问控制”来强化数据安全，确保只有具备相应权限的用户才能查看敏感信息。除此之外，元数据过滤还能通过精确限定查询范围来优化搜索性能，提升效率并节省计算资源。在企业里，这种定制功能特别有用，不仅能让用户体验一下子提升，轻松在海量文档中找到想要的内容，操作起来更直观。

下面的示意图展示了不同访问控制之间的对比，说明了元数据过滤如何实现更细粒度的访问管理。示例中使用了三个过滤条件：privacylevel、uploader 和 update_date。通过调整 privacylevel，就能控制用户对 RAG 2.0 路线图的访问权限，从而让管理员精准地决定哪些用户可以检索或查看某些信息，在保证安全的同时提升数据访问效率。

Dify v1.1.0 发布：用元数据给知识库

简而言之，元数据就像一个智能的知识过滤器，通过在数据上增添上下文属性和访问控制，从而实现更智能、更安全和更高效的信息检索。尤其是在 RAG（检索增强生成）系统中，需要兼顾知识的隐私和相关性，元数据的重要性更是不言而喻。

如何用元数据过滤，让知识检索更精准？

第一步：在知识库中为文档添加元数据

用户可以在知识库中为文档添加并管理元数据。每个文档在创建时都会自动分配一些默认元数据（例如文件名、上传者、上传日期等）。用户也可以手动添加新的元数据字段，设置字段名称和数据类型，并对现有文档进行批量编辑或修改。通过这种给文档打标签的方式，能够为文档附加更多结构化信息，让后续的搜索与管理更加高效。

Dify v1.1.0 发布：用元数据给知识库

第二步：在应用中配置元数据过滤

用户可以在 Chatbot 的「Context」部分，或在 Chatflow、Workflow 中的知识检索节点里找到元数据过滤的配置入口，从而基于元数据属性来精准筛选和检索信息。用户可选择自动或手动两种过滤模式。在自动模式下，系统会根据用户的查询自动提取并生成过滤条件；手动配置时，用户则可以根据元数据字段类型（如字符串、数值或时间）来设置过滤条件，并将多个条件之间的关系设置为 AND 或 OR。

Dify v1.1.0 发布：用元数据给知识库

三大元数据类型与应用场景

我们目前支持三种类型的元数据：字符串、数值和时间，可根据实际场景灵活运用。下面是一些示例：

Dify v1.1.0 发布：用元数据给知识库

字符串元数据 – 提升语境相关性
通过字符串元数据，可以过滤掉大量与查询不相关的信息，从而更精准地返回结果。例如，当用户搜索“项目报告”时，若文档携带“市场部”或“研发部”等元数据标签，就可在搜索中优先呈现这些标签相关的文档。
数值元数据 – 实施访问控制
利用数值元数据，可以根据预先设定的标准来限制文档的访问权限。例如，用户只能检索到隐私级别高于某一阈值的文档，从而确保数据访问的安全和合规。
时间元数据 – 管理文档版本
时间元数据能够区分文档的新旧版本。当内容被更新并重新上传时，通过时间过滤可以优先检索到最新版本。如果将上传者设置为同一用户，还可以方便地对多批次上传的不同版本进行对比测试，同时确保文档处理的一致性。

若想了解更详细的操作流程，请查阅知识库帮助文档，亲自动手体验一下吧！

https://docs.dify.ai/zh-hans/guides/knowledge-base

文章来自微信公众号 “ Dify ”，作者 Dify.AI

Dify v1.1.0 发布：用元数据给知识库

关键词: Dify , RAG , 知识库 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI