Dify v1.1.0 发布:用元数据给知识库"贴标签",RAG 检索效率翻倍

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
Dify v1.1.0 发布:用元数据给知识库"贴标签",RAG 检索效率翻倍
6690点击    2025-03-18 21:13

大家好,我是 Dify 产品团队的 Yawen。今天,我们很高兴地宣布发布 Dify v1.1.0,并推出了以“元数据”作为知识过滤器的新功能。通过利用自定义的元数据属性,元数据过滤能够提升知识库中相关数据的检索效率和准确度。过去,用户只能在庞大的数据集中进行搜索,无法根据特定需求进行筛选或控制访问,难以快速锁定最相关的信息。而在引入元数据后,相当于给数据打上标签并进行归类,大幅度提高了检索的效率和准确性。对于在 RAG(检索增强生成)场景下需要管理海量信息的用户来说,元数据更是至关重要,因为它能帮助更有效地管理与访问信息。


元数据过滤是什么?


元数据本质上就是“关于数据的数据”。它为主要数据提供了额外的背景或属性标签,使搜索和检索更加精确。例如,在文档管理系统中,元数据可能包括文档名称、作者、创建日期等。通过这些结构化信息,系统能够基于特定条件进行筛选,从而更准确地检索到相关内容。


Dify v1.1.0 发布:用元数据给知识库


元数据过滤:让 RAG 应用如虎添翼


元数据过滤能够显著提高 RAG 应用搜索的准确度,帮助用户快速定位所需文档并减少无关结果。它通过“访问控制”来强化数据安全,确保只有具备相应权限的用户才能查看敏感信息。除此之外,元数据过滤还能通过精确限定查询范围来优化搜索性能,提升效率并节省计算资源。在企业里,这种定制功能特别有用,不仅能让用户体验一下子提升,轻松在海量文档中找到想要的内容,操作起来更直观。


下面的示意图展示了不同访问控制之间的对比,说明了元数据过滤如何实现更细粒度的访问管理。示例中使用了三个过滤条件:privacylevel、uploader 和 update_date。通过调整 privacylevel,就能控制用户对 RAG 2.0 路线图的访问权限,从而让管理员精准地决定哪些用户可以检索或查看某些信息,在保证安全的同时提升数据访问效率。


Dify v1.1.0 发布:用元数据给知识库


简而言之,元数据就像一个智能的知识过滤器,通过在数据上增添上下文属性和访问控制,从而实现更智能、更安全和更高效的信息检索。尤其是在 RAG(检索增强生成)系统中,需要兼顾知识的隐私和相关性,元数据的重要性更是不言而喻。


如何用元数据过滤,让知识检索更精准?


第一步:在知识库中为文档添加元数据


用户可以在知识库中为文档添加并管理元数据。每个文档在创建时都会自动分配一些默认元数据(例如文件名、上传者、上传日期等)。用户也可以手动添加新的元数据字段,设置字段名称和数据类型,并对现有文档进行批量编辑或修改。通过这种给文档打标签的方式,能够为文档附加更多结构化信息,让后续的搜索与管理更加高效。


Dify v1.1.0 发布:用元数据给知识库


第二步:在应用中配置元数据过滤


用户可以在 Chatbot 的「Context」部分,或在 Chatflow、Workflow 中的知识检索节点里找到元数据过滤的配置入口,从而基于元数据属性来精准筛选和检索信息。用户可选择自动或手动两种过滤模式。在自动模式下,系统会根据用户的查询自动提取并生成过滤条件;手动配置时,用户则可以根据元数据字段类型(如字符串、数值或时间)来设置过滤条件,并将多个条件之间的关系设置为 AND 或 OR。


Dify v1.1.0 发布:用元数据给知识库


三大元数据类型与应用场景


我们目前支持三种类型的元数据:字符串、数值和时间,可根据实际场景灵活运用。下面是一些示例:


Dify v1.1.0 发布:用元数据给知识库


  • 字符串元数据 – 提升语境相关性
  • 通过字符串元数据,可以过滤掉大量与查询不相关的信息,从而更精准地返回结果。例如,当用户搜索“项目报告”时,若文档携带“市场部”或“研发部”等元数据标签,就可在搜索中优先呈现这些标签相关的文档。
  • 数值元数据 – 实施访问控制
  • 利用数值元数据,可以根据预先设定的标准来限制文档的访问权限。例如,用户只能检索到隐私级别高于某一阈值的文档,从而确保数据访问的安全和合规。
  • 时间元数据 – 管理文档版本
  • 时间元数据能够区分文档的新旧版本。当内容被更新并重新上传时,通过时间过滤可以优先检索到最新版本。如果将上传者设置为同一用户,还可以方便地对多批次上传的不同版本进行对比测试,同时确保文档处理的一致性。


若想了解更详细的操作流程,请查阅知识库帮助文档,亲自动手体验一下吧!

https://docs.dify.ai/zh-hans/guides/knowledge-base



文章来自微信公众号 “ Dify ”,作者 Dify.AI


Dify v1.1.0 发布:用元数据给知识库

关键词: Dify , RAG , 知识库 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI