MariaDB 最近发布了 MariaDB Community Server 11.8,作为 2025 年的年度长期支持(LTS)版本,现已普遍可用。新版本引入了集成的向量搜索功能,适用于 AI 驱动和相似性搜索应用程序,增强了 JSON 功能,并提供了用于数据历史和审计的时态表。
新的向量数据类型允许更复杂的数据存储和检索,特别适用于机器学习和数据科学应用,在这些应用中数据的向量表示很常见。虽然在早期版本中已经添加了向量支持,如之前在 InfoQ 上报道的,这是第一个允许开发人员存储嵌入并与传统关系数据一起查询的 LTS 版本。MariaDB 基金会的首席执行官 Kaj Arnö 写道:
这无疑是 MariaDB 11.8 LTS 最显著的亮点:全面支持 MariaDB Vector(......) 向量搜索能力对于 RAG 和其他现代 AI 和机器学习应用至关重要,可以在大型数据集上进行相似性搜索。MariaDB Vector 现在以 LTS 形式得到全面支持,为你提供未来几年的稳定性和可预测性。
MariaDB Vector 包括一个原生的向量数据类型,用于最近邻搜索的索引,用于计算向量相似度的函数(VEC_DISTANCE_EUCLIDEAN、VEC_DISTANCE_COSINE 和 VEC_DISTANCE),以及用于将二进制向量转换为其文本表示和返回的函数(VEC_FromText 和 VEC_ToText)。此外,该特性为 Intel(AVX2 和 AVX512)、ARM 和 IBM Power10 CPU 提供了 SIMD 硬件优化。
新功能允许针对流行的用例在高维数据上进行相似性搜索,如语义搜索、推荐引擎和异常检测的用例。今年早些时候,数据库专家 Mark Callaghan 进行了基准测试,比较了 MariaDB、Qdrant 和 Postgres(pgvector)在大型数据集上的表现。他得出结论:
如果你已经在运行 MariaDB 或 Postgres 了,那么我建议你也使用它们进行向量索引 (...…) 我有偏见。我对部署一个新的 DBMS 来支持仅一种数据类型(向量)持怀疑态度,除非你在生产环境中没有其他 DBMS,或者你的生产 DBMS 不支持向量索引。
Vettabase 的创始人 Federico Razzoli 在这一版本进行了深入的审查,他强调了一些他最喜欢的改进,包括并行转储、PARSEC 身份验证和新的 SQL 语法,以及遗漏的内容,如目录。关于向量搜索,他写道:
根据 Mark Callaghan 的基准测试,MariaDB 向量比 pgvector 更快。但这里有一些注意事项。如果我们只关心性能,最大的问题是 MariaDB 显然决定永不使用 SQL 以外的语言来实现存储过程。这意味着嵌入过程必须发生在 MariaDB 之外,通常是在另一个服务器上,即使原始数据在 MariaDB 中。使用 PostgreSQL,你可以在 Postgres 内完成所有操作。
向量搜索是 MariaDB 版本的主要功能,但不是唯一的功能:像其他开源关系数据库一样,MariaDB 现在已经将 Unicode 作为默认字符集,以使其完全兼容当今的多语言和全球应用,并将时间戳范围从 2038 年扩展到 2106 年。Arnö写道:
像大多数开源项目一样,我们已经解决了著名的 2038 年问题。但与许多其他项目不同,MariaDB 不需要任何数据转换就可以实现了这一点——前提是你没有使用系统版本的表。这意味着在时间戳溢出时,现有数据保持不变,同时可以获得 80 年的缓期。
该版本改进了对数据历史记录和审计的时态表的支持:维护数据修改的完整历史有助于时间点恢复场景、合规性和安全性。MariaDB plc 的产品经理 Ralf Gebhardt写道:
时态表最初在 MariaDB 10.3 中引入,现在有了一些增强,它可以自动管理数据的历史记录,并简化了需要沿袭数据的应用程序的开发和维护。
根据 文档,可以从 MariaDB 11.4(之前的 LTS)或任何旧版本升级到 MariaDB 11.8,回溯到 MariaDB Server 10.0 或更早的版本,包括 MySQL Server 的大多数版本。MariaDB 发布了另一篇文章,介绍如何使用 MariaDB Vector Store 框架构建 AI 应用程序。
主要的云服务提供商尚未在他们的托管服务上支持最新的 GA 版本,AWS 目前只在 数据库预览环境中支持 11.8。
MariaDB 11.8 在 GPLv2 许可下发布,可在 GitHub 上获得。
原文链接:
https://www.infoq.com/news/2025/06/mariadb-vector-search/
文章来自于微信公众号“InfoQ”。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI