大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架 关键词: AI,工业AI,vLLM,Ada-KV,模型训练 改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。 来自主题: AI技术研报 2753 点击 2024-11-02 19:10