AI资讯新闻榜单内容搜索-Medusa

3倍生成速度还降内存成本，超越Medusa2的高效解码框架终于来了

传统上，大型语言模型（LLMs）被认为是顺序解码器，逐个解码每个token。

来自主题: AI技术研报

4648 点击 2024-05-10 23:29

去年，在加速大语言模型推理层面，我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今，关于 Medusa 终于有了完整技术论文，还提供了新的版本。

来自主题: AI技术研报

4903 点击 2024-01-24 14:06