先建“语义基座”,再谈运维智能!阿里云以 Operation Intelligence 定义 AIOps 新范式

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
先建“语义基座”,再谈运维智能!阿里云以 Operation Intelligence 定义 AIOps 新范式
6930点击    2026-01-29 15:21

大模型的出现,给许多行业带来了颠覆性的改变,运维这个向来被视为稳定、保守的领域也不例外。虽然“AIOps”这个概念早在 2016 年由 Gartner 提出,但早期的智能运维更多是利用大数据和机器学习对传统运维流程进行效率上的提升。十年后的今天,大模型的强大能力,正推动着 AIOps 从辅助工具,演进为数智化转型中不可或缺的核心基础设施,让运维真正迈入智能化的深水区。


阿里云云原生应用平台事业部总经理、资深技术专家周琦作为这一变革的深度参与者,对 AIOps 的本质有着深刻洞察。“AIOps 这个词已经被广泛使用,但我更倾向于用 Operation Intelligence 来定义它。”周琦在采访中强调,“它的核心是发现与沉淀运维操作中的智慧,让工程师从重复繁琐的劳动中解放出来,聚焦于更高价值的创造。”


十年演进,重塑 AIOps 底层逻辑


在传统的运维时代,更多依赖人工被动处理故障,效率低下;而后进入到自动化运维时代,借助工具实现任务自动化,缩短了故障恢复时间;到了小模型运维时代,通过机器学习实现异常检测与根因分析,运维也初步具备智能化特征;如今进入到大模型时代,运维才真正开始走向真正的智能化。


回顾 AIOps 过去十年的发展,周琦认为有两个关键转折点重塑了其底层逻辑。第一个转折点是通用大模型的到来。在此之前,所谓的智能运维更多是通过垂类 AI 模型来解决告警治理、异常检测等单一、点状的问题。这种方式虽然有用,但难以规模化。大模型的通用特性,像是一个巨大的杠杆,将 AIOps 的能力从“点状解决”扩展到“面状全域覆盖”,凭借其强大的泛化能力可以应对千变万化的碎片化运维任务。


第二个转折点则在于数据整合技术的突破。过去,运维工作呈现高度碎片化特征,数据和引擎往往由不同供应商提供,形成了天然的数据孤岛。周琦表示,想要建设统一的 AIOps 体系,首先就要跨过这道鸿沟。如今,存储、计算与分析技术的进步,实现了异构数据的关联与串联,将分散在各个系统中的数据整合在一起,为全域智能运维奠定了坚实基础。


技术的演进也推动了企业对 AIOps 认知的转变。周琦观察到,早期,企业引入 AIOps 的核心诉求只是保障系统的稳定性,关注的焦点集中在故障修复、告警处理等基础功能方面。但现在,企业的需求维度大大拓宽了,安全性、可扩展性、延时、用户体验等这些过去容易被忽略的“隐性成本”,正受到前所未有的关注。这种认知的升级带来需求的延伸,AIOps 不再仅是运维工程师的工具,还需要满足企业管理者对系统成熟度、跨模块依赖关系等深层因素的考量,真正覆盖多角色、多维度的运营需求。真正的 AIOps,不是让人去适应工具,而是让工具主动理解人、服务人、成就人。


能力跃迁,让系统“能感知、会思考、可行动”


大模型时代的到来,让 AIOps 具备了前所未有的智能化能力。那么,大模型究竟为运维领域带来了哪些质变?周琦用一个生动的比喻来解释,给 AI 装上“摄像头”。传统运维在很大程度上依赖于工程师的个体经验,一位经验丰富的老师傅心中通常有一张无形的系统拓扑图,知道哪里容易出问题、该如何分析。但这种宝贵的经验附着于个体,难以沉淀、复制和规模化。大模型的出现,结合阿里云构建的实时数据采集与分析引擎,相当于为 AI 赋予了感知能力,使其能够真正能“看懂”系统、“理解”故障、“思考”方案。


这带来了运维能力的根本性跃迁。机器不再是机械地匹配预设规则、触发阈值告警,而是开始能够“读懂”告警信息背后的语义,“理解”系统当前真实的运行状态,甚至能“归纳”历史故障的复杂模式,并主动生成可供执行的修复建议。为此,阿里云提出 Operation Intelligence 理念,把人的经验变成系统的智慧,把个体的直觉转化为组织的资产,让系统具备“类人决策”能力,周琦将阿里云践行的 Operation Intelligence 理念概括为三个层面的能力进化。


在感知层面,目标是突破传统监控中常见的“数据孤岛”,构建从终端设备到业务流程的全链路感知网络。在认知层面,关键在于融合大模型的通用理解能力与专用领域算法,将海量、原始的观测数据转化为可解释、可推理的系统关系图谱。最终,在行动层面,通过模型与算法的协同驱动,实现自动化的处置闭环,推动运维从“人工救火”向“系统自愈”转变,通过高效的人机协同大幅提升整体运营效能。


当然,大模型并非万能,针对大模型“幻觉”问题,阿里云设计了一套双重保障机制。周琦介绍说,在技术层面,通过强化多源数据的交叉验证,将数据采集、清洗、预处理等基础但繁重的工作交由传统工具完成,让大模型聚焦在最核心的推理环节,从源头减少幻觉产生的可能性。在应用层面,系统支持企业外挂自身的私有知识库,利用行业或企业特有的领域知识来补充和修正通用大模型可能存在的认知盲区,确保建议的准确性与合规性。


构建智能运维新范式,解放人力聚焦高价值


理想与现实之间总是存在挑战。周琦坦言,阿里云在自身的大规模实践中深刻体会到两大核心难题。其一是数据层面的挑战,包括异构系统形成的数据孤岛、数据洪流带来的存储与算力压力。其二是认知层面的挑战,不同团队、不同系统之间存在的“语义鸿沟”,以及对系统拓扑、故障根因逻辑链的理解不一致问题。


为了系统性地解决这些问题,阿里云将内部的实践经验产品化,形成了一套帮助企业在大模型时代构建智能运维新范式,并且在可观测产品中落地。


这套架构分为三层,底层是以日志服务 SLS 为核心引擎构建的统一可观测数据平台,实现日志、指标、链路、事件等多类型数据的统一接入与存储。该引擎具备 EB 级存储规模和秒级千亿行查询能力,能轻松应对每天数百 PB 数据,在保障数据完整性的同时,综合成本较自建方案降低 50% 以上。更重要的是,它支持全栈、实时、无侵入的数据接入,覆盖从移动端到基础设施的 200 多种组件,让企业无需重构现有系统即可完成数据整合。


先建“语义基座”,再谈运维智能!阿里云以 Operation Intelligence 定义 AIOps 新范式


中层通过 UModel 统一模型构建 IT 系统的 “数字孪生”,这是阿里云可观测性产品的核心建模框架。UModel 基于本体论,提供了一套观测实体及实体关系的定义,覆盖从用户体验、应用服务、容器到底层基础设施的每一层表征。UModel 就像给整个 IT 系统建立一套通用语言词典,让应用、容器、网络等不同组件能用同一套语义对话,彻底告别“你说你的指标,我说我的日志”的沟通困境。周琦表示,这套标准化建模彻底消除了语义歧义,让不同部门、不同系统之间的协作更高效,也让运维人员的经验得以沉淀为可复用的组织资产,而非随人员流动流失。


先建“语义基座”,再谈运维智能!阿里云以 Operation Intelligence 定义 AIOps 新范式


上层则是以 AI Agent 为智能核心,实现“工具适应人”的新范式。Agent 采用自然语言交互方式,支持全场景上下文感知,用户可在任意界面随时召唤,直接通过自然语言提问,无需掌握复杂的查询指令。AIOps Agent 基于阿里云可观测平台的多源数据采集、存储、分析能力,采用“统一数据平台 + UModel + 传统算法 + 生成式 AI”的混合处理架构, 能够自主规划、调用工具、执行分析并反思优化,可以提供从自然语言交互到自动化巡检的全流程运维辅助能力,解决各类开放和未知的运维难题,将运维人员从重复的查询、分析工作中解放出来。


先建“语义基座”,再谈运维智能!阿里云以 Operation Intelligence 定义 AIOps 新范式


周琦形象地说,“希望运维未来可以高度自动化,让 AIOps 把那些又脏又累的活儿做了。”这意味着,企业客户无需再投入大量宝贵的人力资源去完成数据采集、清洗、对齐等基础且繁琐的工程工作,阿里云的平台已经将这些“隐形工程”承担下来。


如今,阿里云 AIOps Agent 已在 6000 多家企业落地,帮助大型企业客户实现故障 MTTR 从小时级降至小于 15 分钟。


对于企业而言,部署 AIOps 的终极价值远不止于减轻运维团队的负担,而是它能释放出宝贵的研发与创新资源,让技术人才能够专注于业务价值创造。同时,它也能帮助企业系统性地管理那些以往容易被忽视的隐性成本与合规风险,从长远角度优化 IT 投资的整体回报。


开源引领生态共建,推动“技术平权”愿景


阿里云深知,“语义基座”的价值在于普及,而开源与生态建设是实现“技术平权”的关键,更能让全行业运维人员共同成长。为此,阿里云在开源布局、标准建设和生态协同上持续发力,推动 AIOps 行业整体进步。


在开源布局方面,阿里云计划将 UModel 统一语义语言开源至社区,并向 OpenTelemetry 社区贡献了探针、采集器等核心工具。这些工具已被滴滴等公司开发人员广泛采用,大幅降低了行业重复开发成本。其中,无侵入探针的代码已开源在 GitHub 上,经过众多企业实战验证,在安全性和稳定性上备受认可,让中小企业无需自行研发即可获得高质量的数据采集能力。


在标准建设方面,阿里云正在构建 AIOps 成熟度 Benchmark 榜单,构建了从数据分析到复杂异常检测的分级标准,涵盖基础任务处理、异常发现、根因分析、隐形问题挖掘、自主修复等不同阶段,让企业能够清晰评估自身能力水平,找到明确的进阶路径。周琦表示,希望可以和业界一起共创,攻克智能运维领域的难题,推动 AIOps 标准落地,促进整个可观测性领域的快速发展。


在生态协同方面,阿里云通过大赛联动高校、企业,将工业界高频问题转化为赛题,促进产学研深度融合。通过大赛的方式,阿里云将标准 Benchmark 和真实场景赛题提供给参赛者,让高校学生、企业开发者都能在实战中提升能力,同时为行业贡献创新方案。


周琦表示,阿里云通过开放共建的模式,打破技术壁垒,让不同规模、不同行业的企业都可以落地 AIOps,实现“技术平权”,让中小企业也能调用顶级“隐形工程师团队”,让每个运维人员都能借助智能工具发挥更大价值,向“智能运营专家”演进。


未来趋势:自主 Agent 协同,运维能力重构


展望未来,周琦从不同时间维度来做出判断。短期来看,低风险任务将实现全自动化闭环,如 IP 封禁、简单扩容等操作可由 AI 自主完成,而重要操作仍保留人机协同决策模式,确保系统安全。同时,多角色 Agent 协同雏形将逐步显现,运维、安全、成本控制等不同领域的 Agent 将共享统一数据视图,提升跨域运营效率。


中长期来看,AIOps 将与 AI Coding、测试等环节深度打通,最终形成开发、测试到运维的全生命周期智能闭环。周琦解释道,AI Coding 目前在开发态做的非常有效,但从一个演示应用到企业级系统,部署后能稳定运行,还需要很长时间。“我们希望能够将 AI Coding 和 AIOps 串联,实现全局优化。让应用系统不光能跑起来,还能跑得更好、更稳,把运行态的状况实时反馈给 AI Coding。”


技术的演进必然带来运维人员角色与能力的重构。周琦表示,过去,运维人员是“救火队员”,整天忙于处理各类故障;未来,他们将转变为“系统教练”,而他们的核心能力不再是重复的操作经验,而是架构设计、业务理解、多维度决策等高阶能力。未来的运维人员需要平衡安全、成本、合规、可扩展性等多重诉求,专注于系统长期价值的优化。


结语


在阿里云可观测团队的定义中,智能运维是一场深刻的范式转移。它以大模型为驱动,基于统一的数据平台与领域知识模型,实现了从“人适应工具”到“将人类创造力注入系统智能之中”的本质转变,最终构建起数据、认知与行动闭环融合的智能体系。


纵观这场由 Operation Intelligence 引领的变革,其核心在于将运维智慧从依赖个人的隐性经验,沉淀为可复制、可迭代的组织数字资产,推动工程师从重复劳作中解放,实现价值的创造性升维。


阿里云始终致力于通过自身实践与生态共建,让任何规模的企业都能获得顶级“隐形工程师” 团队的支持,在数智化浪潮中聚焦核心创造,实现个人与企业的共同成长。


正如周琦所言,“未来的运维竞争,将不再是工具的竞争,而是人的创造力与战略眼光的竞争”。当统一语言打通系统与智能的鸿沟,技术真正服务于人的价值释放,这场变革便不止于运维效率的提升,更将成为企业创新加速、行业持续进步的核心动力。


文章来自于“51CTO技术栈”,作者 “鸢玮”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT