3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了 关键词: Medusa2,AI,模型训练,LLMs,顺序解码器 传统上,大型语言模型(LLMs)被认为是顺序解码器,逐个解码每个token。 来自主题: AI技术研报 3661 点击 2024-05-10 23:29
大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一 关键词: 大模型训练,Medusa,AI推理,模型推理 去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。 来自主题: AI技术研报 3703 点击 2024-01-24 14:06