AI资讯新闻榜单内容搜索-On-policy

用SFT打出RL的效果？微软联合提出高效后训练算法

在大模型后训练阶段，监督微调（SFT）和强化学习（RL）是两根不可或缺的支柱。SFT 利用高质量的离线（Off-policy）数据快速注入知识，但受限于静态数据分布，泛化能力往往容易触及天花板并带来灾难性遗忘；RL 则允许模型在探索中不断自我迭代，产生与当前策略同分布（On-policy）的数据，上限极高，但往往伴随着训练极度不稳定、计算资源消耗巨大的痛点。

来自主题: AI技术研报

5225 点击 2026-03-26 10:47

只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

今天要讲的On-Policy Distillation（同策略/在线策略蒸馏）。这是一个Thinking Machines整的新活，这个新策略既有强化学习等在线策略方法的相关性和可靠性；又具备离线策略（Off-policy）方法的数据效率。

来自主题: AI资讯

9398 点击 2025-10-29 11:12

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报

8614 点击 2025-10-28 10:50