摘要
多模型推理服务的负载均衡器,包括调度器和探测器,探测器探测云服务集群中每个队列系统的工作负载压力,当云服务集群中最大工作负载压力的队列系统和最小工作负载压力的队列系统的工作负载压力满足调度条件时调度器从最小工作负载压力的队列系统调度一个推理服务实例到最大工作负载压力的队列系统中;调度条件包括云服务集群中最大工作压力大于最小工作压力×阈值。本发明的多模型推理服务的负载均衡器和方法能够有效的实现云服务集群中每个队列系统的负载均衡,从而提高云服务集群的推理服务的处理效率;跟传统的贪心枚举策略相比,本发明的多模型推理服务的负载均衡器和方法在工作负载、响应时间和响应时间分配的准确性上具有更加优秀的表现。