摘要
本公开提供了一种模型推理加速的内存池化方法、系统及计算机程序产品,涉及计算机技术领域。模型为分离池化架构,分离池化架构包括:分离的预填充节点池、解码节点池和CXL内存池,本公开的模型推理加速的内存池化方法,包括:基于第一调度策略将推理请求分配给预填充节点池中的第一预填充节点;第一预填充节点对推理请求进行处理,获得键值缓存;将键值缓存存储于CXL内存池;基于第二调度策略选定解码节点池中的第一解码节点;第一解码节点基于推理请求从CXL内存池中获取键值缓存;以及第一解码节点根据获取的键值缓存生成推理结果。