一种面向大规模云数据中心的服务器协同监控方法及系统
申请号:CN202411134693
申请日期:2024-08-19
公开号:CN119324884A
公开日期:2025-01-17
类型:发明专利
摘要
本发明提供了一种面向大规模云数据中心的服务器协同监控方法及系统;通过大规模智算云数据平台,根据数据类型通过算法集成构建AI服务器及智算云算力服务器集群,形成智算云服务器交叉监控网络;智算云算力服务器根据保活探测机制,进行服务器连接状态探测及大规模服务器协同探测,探测大规模服务器集群状态;对大规模服务器集群状态通过云数据中心进行大规模服务器集群状态分类,判定各类集群状态数据资源分配,进行大规模服务器集群状态数据资源协同配置;通过智算云数据平台及智算云算力服务器对大规模服务器集群进行协同监控,对大规模云数据中心的大模型训练数据资源进行实时精细化监控。
技术关键词
大规模服务器集群
云数据中心
服务器协同监控方法
协同监控系统
数据平台
AI服务器
监控网络
资源分配
分系统
通用服务器
网络拓扑结构
服务器集群资源
机制
监控子系统