AI资讯新闻榜单内容搜索-推测解码

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 推测解码

NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤：推测解码加速器AdaSPEC来了

NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤：推测解码加速器AdaSPEC来了

NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤：推测解码加速器AdaSPEC来了

目前，最先进的对齐方法是使用知识蒸馏（Knowledge Distillation, KD）在所有 token 上最小化 KL 散度。然而，最小化全局 KL 散度并不意味着 token 的接受率最大化。由于小模型容量受限，草稿模型往往难以完整吸收目标模型的知识，导致直接使用蒸馏方法的性能提升受限。在极限场景下，草稿模型和目标模型的巨大尺寸差异甚至可能导致训练不收敛。

来自主题: AI技术研报

7416 点击 2025-11-07 14:57

3天把Llama训成Mamba，性能不降，推理更快！

3天把Llama训成Mamba，性能不降，推理更快！

3天把Llama训成Mamba，性能不降，推理更快！

近日，Mamba方面又搞出了有意思的研究：来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。

来自主题: AI技术研报

8281 点击 2024-09-05 15:31

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

推测解码（Speculative Decoding）是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下，获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。

来自主题: AI技术研报

7677 点击 2024-02-20 17:22

大模型推理速度飙升3.6倍，「美杜莎」论文来了，贾扬清：最优雅加速推理方案之一

大模型推理速度飙升3.6倍，「美杜莎」论文来了，贾扬清：最优雅加速推理方案之一

大模型推理速度飙升3.6倍，「美杜莎」论文来了，贾扬清：最优雅加速推理方案之一

去年，在加速大语言模型推理层面，我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今，关于 Medusa 终于有了完整技术论文，还提供了新的版本。

来自主题: AI技术研报

4990 点击 2024-01-24 14:06

上一页当前第1页,共1页下一页