
3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了
3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了传统上,大型语言模型(LLMs)被认为是顺序解码器,逐个解码每个token。
来自主题: AI技术研报
3988 点击 2024-05-10 23:29
传统上,大型语言模型(LLMs)被认为是顺序解码器,逐个解码每个token。
去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。