
大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架
大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。
来自主题: AI技术研报
3178 点击 2024-11-02 19:10
改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。