ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
双向赋能:AI与数据库的修行之道
5823点击    2024-06-29 00:10


在这个数据为王的时代,数据是人工智能的三大支柱之一,其重要性不言而喻。最近,OpenAI 收购了数据库初创公司 Rockset,迅速引起了业内外的广泛关注。OpenAI 早已在算法和计算能力方面遥遥领先,通过这次战略性的收购,OpenAI 将在其产品中融合 Rockset 的先进数据索引和查询技术,帮助 OpenAI 将数据转化为 “可操作智能”。


现代数据库与人工智能(AI)的融合,正如同一场席卷全球的技术革命,深刻地重塑着技术与产业的格局。


一方面,数据库技术的技术迭代需要更好地支持人工智能应用工作负责,比如向量数据库,也就是 DB for AI;另一方面人工智能技术也更好地让数据库运维更方便,实现自动化和智能化,也就是 AI for DB。


在这一个变革过程中,数据库产业正面临诸多挑战,比如海量数据高性能和大并发、大量数据库实例智能优化、保障数据安全防篡改的防护等。面对这种情况,企业如何通过技术创新和生态协同应对挑战并抓住其中的机遇呢?


作为数据库领域的领头羊,东方国信、PingCAP、云和恩墨通过自身的技术与产品实践给出了他们的答案,同时他们与英特尔的协同创新,也让我们看到了数据库生态的蓬勃生机。



新需求催生新挑战


在 AI 大模型时代,由于数据库的使用人数和数据量的爆炸性增长,数据库系统的并发度会极大提升。云和恩墨联合创始人兼 CTO 杨廷琨强调,数据量爆发性增长带来压力的同时,硬件技术的快速发展也促进了算力提升,为提升处理能力和性能提供了可能性。这时候,数据库厂商需从两方面着手应对:一方面增强单机性能,另一方面通过架构设计实现平滑扩展,以满足海量数据的处理需求。


同时,数据量的爆炸性增长也会带来极大的数据冗余。在此挑战下,用户从需求侧又提出了很多新的要求,东方国信副总裁兼 CTO 查礼表示:用户往往会希望数仓既能做数据加工,又能做分析和查询,这要求数据库系统具有高度灵活性和多功能性。


数据来源多样化和用户需求复杂化催生了对硬件越来越高的需求,数据库要保持高性能、高稳定性,开发和运维人员又需要简化数据库的使用,这构成了一种 “悖论”。


为解决数据库行业 “既要、又要” 的问题,越来越多的数据技术公司让 AI “入局”,让数据库越跑越 “聪明”。PingCAP 服务总经理林景旭表示,他们正探索利用 AI 技术增强数据库功能,同时简化用户操作。作为一家分布式数据库厂商,PingCAP 提供的开源分布式数据产品与解决方案,通过分布式数据库架构,实现计算和存储的分离,以动态扩展满足不同用户需求,这其中便可以通过 AI 算法来优化资源使用和性能评判。


数据库产业需要不断创新,开发更加高效、可靠、智能的数据库技术,才能满足新需求的挑战。同时,数据库产业链也需要紧密合作,共同推动数据库技术的发展,为数字经济的发展提供更加坚实的基础。


生态协同推动产业变革


数据库产业面临的挑战是多方面的,这些挑战并非单个企业能够独自解决,需要整个产业的协同合作,才能共同应对挑战,并抓住其中的机遇。


凭借先进的处理器技术、开源合作策略以及对客户需求的深刻理解,英特尔与数据库领域的合作伙伴一起构建了一个开源开放、合作共赢的生态环境,助力数据库技术的持续创新和应用落地。


英特尔中国云创中心技术总经理张晓军介绍说,第四代和第五代英特尔®️ 至强® 可扩展处理器内置了多项面向数据库优化的技术,例如英特尔® QAT(英特尔 ® 数据保护与压缩技术)用于数据压缩解压缩,以及英特尔® IAA(英特尔® 存内分析加速器)加速数据分析。在数据安全方面,英特尔也能通过英特尔® TDX(英特尔® 信任域扩展)和 SGX(英特尔® 软件防护扩展)为使用中的数据提供端到端硬件级防护能力。


此外英特尔至强 6 处理器已于近期发布,提供了两种不同的 CPU 微架构版本,分别为性能核 (P-core) 和能效核 (E-core),让多种工作负载的性能和能效表现再创新高。其全新功能和内置加速器为目标工作负载带来进一步助力,实现了更高的性能和能效。


基于英特尔® 架构的加速器与软件工具


众多的合作伙伴正在借助至强处理器和加速器及软件工具增强自身的产品竞争力。


比如 PingCAP 推出的 TiDB 开源分布式数据库就得益于第四代英特尔® 至强® 可扩展处理器卓越的代际性能,其数据库的只读性能与读写性能分别达到基准配置的 1.62 倍与 1.43 倍。


  


此外 TiDB 利用至强®️ 可扩展处理器搭载的英特尔®️ IAA 提供的出色吞吐量压缩和解压缩功能,在不影响性能的前提下,提升了数据压缩率,节约了存储空间。PingCAP 采用英特尔®️ IAA 代替 LZ4 之后,TiDB 压缩率为 LZ4 无损压缩算法的 1.4 倍。



并结合 CPU 的迭代,性能提升可达到原配置的 1.56 倍 ,有助于客户化解数据压缩所带来的性能困扰。



虽然硬件性能的提升为数据库处理海量数据提供了基础,但要真正发挥这些算力,需要对数据库内核进行深度优化。云和恩墨通过改进数据库内核,使之更好地适应现代硬件,如多核 CPU、大内存和高速 IO 子系统,从而实现单机性能的显著提升。


根据其透露的测试结果,在一颗至强®️ 双路服务器架构上,以 50G 内存配置,再加上一个 NVMe 的 SSD 闪存,云和恩墨达到了 700 万 TPCC 的指标,可以说是极大提高了单机能力。


东方国信适用于超大规模数据存储和在线分析的大数据 BEH 平台企业版通过集成 Gluten 与 Velox Backend 向量化执行引擎,为 Spark 注入了原生矢量化执行的能力,同时结合第四代英特尔® 至强® 可扩展处理器,以及处理器集成的英特尔® QAT 加速器,显著优化了 Spark 批处理计算、SparkSQL 计算、SQL 查询服务的执行效率。经测试,在相同硬件环境下,配合英特尔® QAT 的加成,Spark 计算性能可提升高达 2.9 倍。



除了硬件之外,英特尔还强化了在软件及数据库生态方面的投入。张晓军还强调了英特尔在开源领域的贡献,如 Apache 社区的 Gluten 项目,已经在很多客户系统里得到了广泛应用,相比传统的 Spark,性能可以提高 2-3 倍,如果其运行在英特尔的硬件上预计取得更优性能,显著提升大数据处理效率。


数据库与 AI 深度融合


随着大数据时代的到来,数据量及系统数量都呈指数级增长,数据类型也由结构化数据逐渐演变成了非结构化数据和半结构化数据,这就对数据库系统的稳定性和能力提出了更高的要求,数据库技术和人工智能技术相结合成为当前热门的研究主题之一。


在 AI 时代,数据已成为驱动企业发展的核心要素,而数据库作为存储、管理和分析数据的重要基础设施,与 AI 技术的深度融合将是大势所趋。这种融合不仅能够提升数据库的性能和智能化水平,还能够推动 AI 技术的应用落地。


数据库厂商在不同维度上探索和应用 AI,东方国信正在利用 AI 技术,尤其是在智能取数方面,通过自然语言处理生成 SQL 语句,提高数据提取的灵活性和效率。同时,他们也在探索智能建仓,尝试通过 AI 技术自动化数据仓库的构建和维护流程,旨在实现数据仓库的自动化和智能化。


查礼表示,公司正积极研发解决方案,旨在通过 AI 辅助减少人工介入,提高效率,预计通过 AI 技术的引入,数仓维护成本能降低 60%。



PingCAP 利用 AI 算法进行资源管理,让数据库更适应复杂多变的业务场景。林景旭强调,通过集成 AI 技术,比如利用 AI 优化数据库内部管理,提升数据库本身的智能水平,使其在满足复杂业务场景的同时,降低使用门槛。这意味着数据库不仅要有强大的数据处理能力,还需具备自我管理和优化的能力,确保在面对日益复杂的业务需求时,能更加自主、高效地运行。


云和恩墨则推动自身 “AI for DB” 和 “DB for AI” 的双向促进,杨廷琨指出,云和恩墨利用 AI 提升数据库性能,尤其是在数据库智能资源管理、智能监控、智能根因追踪、智能参数调优、SQL 智能优化以及自动驾驶等方面的应用潜能。


结语


现代数据库与人工智能的结合不仅对处理能力、架构灵活性和用户体验提出了更高要求,也为数据库产业带来了前所未有的发展机遇。


随着技术的不断进步和生态合作的深化,未来数据库将更加智能、灵活和强大,为数字经济的发展提供坚实的基础。英特尔与数据库领域的合作伙伴将一起共同推动数据库产业向智能化、高效化转型,满足客户的业务创新需求。


文章来源于:微信公众号机器之心


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI