告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成
告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成今年以来,在线策略蒸馏 OPD(On-Policy Distillation)已经逐渐成为大厂 LLM 后训练中的重要组件,例如 DeepSeek-V4,GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力,相比混合奖励强化学习收敛更快、效果更好。
搜索
今年以来,在线策略蒸馏 OPD(On-Policy Distillation)已经逐渐成为大厂 LLM 后训练中的重要组件,例如 DeepSeek-V4,GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力,相比混合奖励强化学习收敛更快、效果更好。
AI浪潮正从线上数字空间,全面涌向线下物理世界。
前几天大模型圈子有个很魔幻的场面,傅盛、孙宇晨、特朗普家族,三个八竿子打不着的人,开始扎堆做大模型中转站的生意。
就在一天前,这颗大脑还属于一个活着的人。数小时后,在它的主人去世后,它被分离并安置在一台机器的推车上。在这台设备上,数升血液替代物和其他液体被泵入其中,帮它维持供氧、排废等生命活动……大脑的大部分关键功能仍在运转,但放电活动被麻醉剂所抑制。
天下武功,唯快不破。
一家视频公司,用三年时间让全员学会写代码——包括那些从没碰过编程的运营、市场、内容同学。
前两天,AI 圈子里出了个瓜,关于 DeepSeek TUI 创始人的,各个社媒群里几乎都刷屏了。但我发现一个问题 ——大家都只盯着一张微信群聊的截图在讨论,几乎没人把整件事的来龙去脉理一遍。
FDE,全称 Forward Deployed Engineer[2]。它在两年前还是 Palantir 圈子里的一个工种黑话,今天已经悄悄变成猎头的开场白、招聘启事的高频岗位、以及社交媒体上“AI 时代最值钱岗位”的候选答案之一。
最近,GPT-5.6泄露了!150万Token+神级极简UI,下月紧急上线,奥特曼的「超级智能体」要掀翻整个硅谷?6月AI大战,已经提前爆发了。
前脚OpenAI刚把Erdős 80年猜想推翻,数学家们的惊呼声还没落地。紧接着,Google DeepMind发布了一个全新AI数学智能体——AlphaProof Nexus。它一出手,就干掉了9道悬而未决几十年的Erdős开放问题。其中最古老的那个,悬了整整56年!