7天开发一个AI Agent应用！秘密武器：一体化数据库

5570点击 2024-10-25 10:18

几个工程师、一个星期，就能做一个AI Agent应用了。

效果be like——

能理解用户复杂长命令，推荐符合要求的奶茶店。

推荐两公里内、评分4.5以上、人均消费25元以内干净卫生的奶茶店。

7天开发一个AI Agent应用！秘密武器：一体化数据库

要知道，这背后需要它能分析处理不同模态的数据，比如文本、地理信息、图像等。

放在以前，构建这样的AI应用需要多个不同的数据库，还需要配备经验丰富且规模较大团队来管理复杂技术栈。

如今，能如此轻松搞定，多亏了背后的一体化数据库OceanBase。

最新发布会上，OceanBase推出首个面向实时分析处理场景的GA版本：4.3.3版本。

不仅推出全新向量检索功能，实现SQL+AI一体化，还进一步增强多模态数据处理能力。

感觉方方面面都是为AI时代做好了准备啊。

7天开发一个AI Agent应用！秘密武器：一体化数据库

为啥能这么说？

从最新发布的新能力看起。

首个面向实时分析的GA版本

此次OceanBase 4.3.3核心升级的能力主要有3方面：

AP场景性能提升
多模态数据支持
向量检索与索引

7天开发一个AI Agent应用！秘密武器：一体化数据库

首先，OceanBase 4.3.3版本升级了对复杂数据类型处理能力。

新增Array类型，这意味着数据库可以直接存储、查询和操作数组数据。并对Roaringbitmap类型数据的计算性能进行了优化，意味着数据库能够更高效地处理和操作大型集合数据。

其次，OceanBase 4.3.3在向量融合查询的关键能力上带来提升，推出全新向量检索能力，支持向量数据类型和向量索引，并基于向量索引提供强大搜索能力。

用户可通过SQL及Python SDK等方式灵活调用OceanBase的向量检索能力。

如今，在通用数据库中集成向量插件已经成为一种趋势，这种方式能够直接复用通用数据已有功能和生态。

OceanBase与蚂蚁集团联合开发了向量索引库，这个索引库已经在蚂蚁集团大量业务场景中得到验证（如生物识别、企业内部知识库等），性能成熟。

现场跑分结果显示，该向量库在960维的GIST数据集上表现出色，在ANN Benmarks测试中性能远超其他算法，排名第一。

特别是在 90% 以上的召回率区间，查询性能（QPS）相比此前最优算法 glass 提升 100%，相比基线算法hnswlib提升300%。

7天开发一个AI Agent应用！秘密武器：一体化数据库

该向量引擎深度融合了OceanBase的存储引擎和SQL引擎，实现SQL+AI一体化。能够在一条SQL语句中实现标量、向量、空间地理等混合查询。

7天开发一个AI Agent应用！秘密武器：一体化数据库

比如“望小京”demo中，用户给的提示词为“推荐两公里内、评分4.5以上、人均消费25元以内干净卫生的奶茶店”。这背后涉及到处理文本、图像和地理位置等不同类型的数据，需要更强大的数据分析和查询能力。

最后，OceanBase 4.3.3还针对AP（分析处理）场景进行大幅性能优化，尤其是在海量数据分析时，能够提供更短的响应时间和更高的吞吐能力。

TPC-H 1T场景提升64%
TPC-DS 1T场景提升36%
ClickBench hot- run提升49%
cold-run性能提升149%

同时大幅完善了实时AP功能，包括支持列存副本、物化视图、外表集成、快速导入导出等。

实现满足TP和AP负载的物理资源强隔离，可确保系统在处理事务型负载时，不受分析型负载的影响，特别是在实时数据分析和决策场景中，能够保持系统的高性能与稳定性。

在易用性方面也做了升级，通过提供AP参数版本，用户可以针对不同场景选择特定模板，不需要再单独配置参数。并增强了AP场景中对SQL诊断能力的支持。

总结来看，OceanBase 4.3.3在基础分布式能力上，带来更强性能、向量多模融合、融入AI技术栈。

也就是将AI与数据库进一步融合。

7天开发一个AI Agent应用！秘密武器：一体化数据库

这并不难理解，AI应用/AI Agent大势所在，各类应用智能化升级改造，底层数据库必须紧随趋势升级。

不过在这之中，OceanBase还反复提到了一个关键词——一体化。

它不仅是OceanBase的自身特性，如今也逐渐成为行业拥抱AI时代的一个优解。

Why？

更快推动AI应用大规模落地

对于数据库的发展，行业内逐渐达成一些共识。

AI能力大幅提升，导致全球80%以上的非结构化数据被激活，背后的挖掘分析需求井喷，在这一新变化下，数据处理面临更大规模、更多模态、实时性更强以及数据碎片和数据孤岛问题。

这些变化给数据库提出了诸多新的发展需求。

最首要的便是，分布式数据库成为一种大趋势。

华东师范大学数据学院院长、CCF数据库专委会常委钱卫宁提出，互联网时代数据走向了开放环境，在数据是分布式的时代里，数据库也需要是分布式的。

分布式数据库可以让多台服务器协同作业，完成单台服务器无法处理的任务，尤其是高并发或者大数据量的任务。

7天开发一个AI Agent应用！秘密武器：一体化数据库

除此之外，随着AI、云计算等技术发展，数据库还呈现出以下特点。

第一，云计算的普及推动了云数据库的快速发展。云数据库提供按需扩展、高可用性和成本效益。

第二，大数据和非结构化数据需求增加，多模态是一种趋势，NoSQL数据库（如MongoDB、Cassandra、Redis、Couchbase）越来越受到欢迎。NoSQL数据库提供了更好的扩展性和灵活性，适用于存储和处理各种数据类型，如文档、键值对、图数据等。

第三，HTAP数据库成为热点，甚至是主流数据库的一项基础能力。这类数据库能够同时处理事务性和分析性工作负载，满足了企业实时数据处理和分析的需求。

第四，开源也是一大趋势。开源数据库（如PostgreSQL、MySQL、MariaDB）凭借其社区驱动的发展模式、强大的功能和灵活的部署方式，成为企业和开发者的热门选择。

不过来到实际落地层面，尽管数据、数据库在变得更加多元复杂，但是企业用户总还是希望能只用一套系统来解决不同工作负载。

比如能同时在事务处理（如支付、订单等高频交易场景）和复杂的实时分析查询，这背后需要TP+AP结合。

以及AI与多模查询能力的融合，如Rockset和Oracle这样的数据库系统通过hybrid search融合查询技术，将SQL查询与向量化查询相结合，使得数据处理能够同时包含文本、结构化数据和向量数据等不同类型。

7天开发一个AI Agent应用！秘密武器：一体化数据库

方方面面影响下，一体化设计逐渐成为被市场青睐的路线。

以MongoDB和Oracle为代表的数据库厂商正在各自推动一体化数据库的发展。国家工业信息安全发展研究中心等共同编制的《分布式数据库发展趋势研究报告》中也表示，分布式数据架构的设计正在走向一体化。

在这之中，OceanBase的一体化理念非常鲜明。它包括：

一体化产品：多工作负载（TP+AP）、多模（SQL+NoSQL）、向量（SQL+AI）。
一体化引擎：一体化存储，一体化事务，一体化SQL。
一体化架构：包括单机分布式一体化与多云原生。

7天开发一个AI Agent应用！秘密武器：一体化数据库

OceanBase介绍，这种一体化的思路是随着客户需求不断发展而来。

首先在底层架构设计上，单机分布式一体化与多云原生并存，可以满足大中小企业的不同需求。OceanBase已经和目前主流云厂商均达成合作，实现公有云“多云共生”，同时也提供专有云、混合云等不同部署环境，保证一致体验。

7天开发一个AI Agent应用！秘密武器：一体化数据库

其次随着数据库场景不断变化，从传统场景到泛互联网场景，OceanBase从TP到TP+AP，逐渐走向多工作负载一体化。

比如在第一阶段OLTP+，会浮现出山东移动这类客户的需求，他们主要关注复杂查询场景，需要增强业务处理效率。

第二阶段浮现出了海底捞这类用户的需求。海底捞本来使用两个系统分别处理OLTP和OLAP，这导致OLTP和OLAP之间存在数据延迟，没法保证数据一致性，还需要两份数据两份成本。OceanBase能将其整合，不仅使整体成本降低，还能提升原本的AP性能。

第三阶段还会浮现出实时营销等场景，对实时AP提出更多要求。

7天开发一个AI Agent应用！秘密武器：一体化数据库

以及在实际推广中，OceanBase发现越来越多客户将OceanBase既应用在KV存储场景，也应用在NoSQL场景，或者替换HBase、Redis等。因为OceanBase能够解决各个场景中很多棘手问题，比如对于NoSQL而言，最大的挑战在于数据规模，分布式架构可以很好解决数据扩展的问题。

因此，顺应用户需求，OceanBase在不断增加对多种数据类型的支持，实现多模一体化。

最后，来到AI时代。“AI for DB，DB for AI”成为共识。

AI应用大规模落地的前提是大模型技术能够在各行各业低成本易用。

数据库的发展经验可以为AI应用推广提供参考。比如在数据库中引入向量插件，实现SQL+AI，能够大幅简化原有AI技术栈，让打造AI Agent的门槛骤降。

7天开发一个AI Agent应用！秘密武器：一体化数据库

最后总结来看，以OceanBase为代表的一体化数据库不仅能为企业提供更更好的数据底座，而且方方面面都满足AI应用发展的需求。它总体呈现出这些特点：

第一，高效的数据处理和分析。

支持HTAP，能够在同一个系统中同时处理事务性（OLTP）和分析性（OLAP）负载。企业可以实时地对交易数据进行分析，而不需要等待数据的同步和转移，从而加快决策速度和响应时间。

实时分析，可以在数据生成的同时进行分析，确保数据的时效性，这对于实时推荐、风控、监控等AI应用至关重要。

第二，简化的数据管理。

一体化数据库能够确保数据的一致性和完整性，因为事务处理和分析处理在同一个系统内完成，避免了数据同步和转换过程中可能出现的延迟和错误。

通过将多种数据类型（如关系型数据、文档数据、向量数据等）集成在一个系统中，一体化数据库简化了数据存储和管理。企业不需要维护多个数据库系统，减少了数据孤岛问题和运维复杂性。

第三，灵活性和扩展性。

一体化数据库支持多模态数据处理，能够处理和分析结构化、半结构化和非结构化数据。这种灵活性使企业可以在一个平台上处理不同类型的数据，满足各种业务需求。

一体化数据库可以在公有云、私有云和本地数据中心的混合环境中部署，支持异构环境下的数据管理和应用。这使企业能够根据业务需求灵活选择和调整部署方案。

第四，简化AI应用构建。

AI应用通常需要进行高效的向量检索和相似性搜索。一体化数据库通过深度集成向量引擎，支持快速向量化计算和相似度查询，提升AI应用的性能。

一体化数据库能够将数据存储和AI模型紧密结合，支持复杂的AI工作负载。这种集成减少了数据传输的延迟，提高了模型训练和推理的效率。

第五，降低成本和复杂性。

一体化数据库减少了企业需要维护的数据库系统数量，简化了技术栈，降低了系统集成和运维的复杂性。

通过优化资源利用和减少多系统间的数据同步和转换，一体化数据库降低了总体拥有成本，提高了投资回报率。

7天开发一个AI Agent应用！秘密武器：一体化数据库

AI时代，Data is Power。

李飞飞当初笃定做ImageNet，背后的核心逻辑就在于，她相信AI改变世界，数据是最简单最直接的方式。

如今，AI应用落地趋势已经开启。数据作为生产要素，在AI时代已是水电般的存在。

而一体化数据库正在为数据更充分灵活高效应用提供新思路。

据了解，一体化数据库OceanBase将成为蚂蚁集团的AI数据底座，为一系列AI时代新应用“支小宝”、“蚂小财”以及支付宝百宝箱智能体开发平台的数据管理提供支持。

一体化正在成为数据库发展历程中，一个旗帜鲜明的方向。

文章来自于微信公众号“量子位”，作者“明敏”

7天开发一个AI Agent应用！秘密武器：一体化数据库

关键词: AI , 智能体 , Agent , OceanBase

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0