基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质
申请号:CN202511348777
申请日期:2025-09-22
公开号:CN120851217A
公开日期:2025-10-28
类型:发明专利
摘要
本申请提供了基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质,涉及计算机技术领域。其中,基于多级缓存机制的大模型推理方法包括:接收原始请求;基于各个实例的键值缓存分布和负载情况,确定原始请求对应的预填充实例和解码实例;通过预填充实例,基于三级缓存机制确定原始请求多个键值缓存块;基于键值缓存块,执行预填充阶段的计算,得到预填充阶段的首个输出标记;通过解码实例,基于预填充阶段的首个输出标记和键值缓存块进行解码阶段的计算,得到原始请求对应的完整输出标记;基于完整输出标记,确定原始请求的推理结果。由此,能够大幅提高了前缀缓存的命中率,有效缓解了负载不均衡的问题。
技术关键词
键值
多级缓存机制
序列
解码
缓冲块
标记
内存
推理方法
阶段
显卡
时延
生成哈希值
编码
异步方式
标识
磁盘
调度器
集群
电子设备