一种模型推理服务优化方法及相关装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种模型推理服务优化方法及相关装置
申请号:CN202511154991
申请日期:2025-08-18
公开号:CN121008918A
公开日期:2025-11-25
类型:发明专利
摘要
本申请公开了一种模型推理服务优化方法及相关装置,涉及人工智能领域,能够根据推理请求中的模型版本参数,确定出模型版本。首先根据表征推理请求的请求标识,从缓存中确定是否存在和请求标识相对应的推理结果数据,优先从缓存中进行推理结果数据的查找,减少大量重复推理请求对大模型的负担,提高推力请求的处理效率。在确定出缓存中未存在相对应的推理结果数据时,根据负载均衡策略从目标模型实例的各服务节点中确定出目标服务节点,并将推理请求发送至目标服务节点进行处理,目标模型实例为模型版本所表征的模型实例。实现对推理请求处理的均衡分配,能够有效减少节点资源的过载或浪费的现象,进而有效模型的服务效率。
技术关键词
服务优化方法 负载均衡策略 节点 服务发现机制 电子设备 数据 标识 计算机存储介质 存储计算机程序 调度算法 参数 优化装置 处理器 队列 存储器 模块 推力 负担 指标 周期