AI资讯新闻榜单内容搜索-模型蒸馏

腾讯AngelSlim升级，首个集LLM、VLM及语音多模态为一体的投机采样训练框架，推理速度飙升1.8倍

随着大模型步入规模化应用深水区，日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下，从量化、剪枝到模型蒸馏，各类压缩技术竞相涌现，但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报

9793 点击 2026-01-19 08:54

谢赛宁与Jaakkola团队重磅研究：无数据Flow Map蒸馏

前些天，一项「AI 传心术」的研究在技术圈炸开了锅：机器不用说话，直接抛过去一堆 Cache 就能交流。让人们直观感受到了「去语言化」的高效，也让机器之心那条相关推文狂揽 85 万浏览量。参阅报道《用「传心术」替代「对话」，清华大学联合无问芯穹、港中文等机构提出 Cache-to-Cache 模型通信新范式》。

来自主题: AI技术研报

7699 点击 2025-11-27 10:11

只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

今天要讲的On-Policy Distillation（同策略/在线策略蒸馏）。这是一个Thinking Machines整的新活，这个新策略既有强化学习等在线策略方法的相关性和可靠性；又具备离线策略（Off-policy）方法的数据效率。

来自主题: AI资讯

8889 点击 2025-10-29 11:12

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报

8119 点击 2025-10-28 10:50