基于强化学习的推理请求调度方法、装置、设备及介质

申请号：CN202511491840

申请日期：2025-10-17

公开号：CN120950225A

公开日期：2025-11-14

类型：发明专利

摘要

本申请涉及人工智能技术领域，公开了一种基于强化学习的推理请求调度方法、装置、设备及介质，应用于推理集群路由调度系统，其中方法包括：基于当前用于表征系统运行情况的当前状态空间，通过强化学习模型确定调度推理请求相匹配的目标模型实例；接收目标模型实例对推理请求依次经过预填充阶段和解码阶段进行处理返回的结果返回给用户；其中，强化学习模型将评估期望值和选择动作分别置于目标网络和主网络中，主网络根据当前状态空间输出各个动作的期望值并选择最大期望值的动作，目标网络评估执行选择的动作后的目标期望值，更新网络参数，以完成强化学习模型的训练。本申请提供的技术方案能够平衡模型实例的节点负载均衡和KV缓存命中率。

技术关键词

强化学习模型请求调度方法更新网络参数表征系统调度系统阶段贪婪策略计算机缓存命中率可读存储介质人工智能技术集群调度装置指标解码数据更新存储器处理器指令