一种多模型推理服务的负载均衡器及方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模型推理服务的负载均衡器及方法
申请号:CN202510190527
申请日期:2025-02-20
公开号:CN120163240A
公开日期:2025-06-17
类型:发明专利
摘要
多模型推理服务的负载均衡器,包括调度器和探测器,探测器探测云服务集群中每个队列系统的工作负载压力,当云服务集群中最大工作负载压力的队列系统和最小工作负载压力的队列系统的工作负载压力满足调度条件时调度器从最小工作负载压力的队列系统调度一个推理服务实例到最大工作负载压力的队列系统中;调度条件包括云服务集群中最大工作压力大于最小工作压力×阈值。本发明的多模型推理服务的负载均衡器和方法能够有效的实现云服务集群中每个队列系统的负载均衡,从而提高云服务集群的推理服务的处理效率;跟传统的贪心枚举策略相比,本发明的多模型推理服务的负载均衡器和方法在工作负载、响应时间和响应时间分配的准确性上具有更加优秀的表现。
技术关键词
队列系统 云服务集群 负载均衡器 负载均衡方法 压力 多模型 探测器 代表 表达式 分子 速率 策略