AI资讯新闻榜单内容搜索-Flow-OPD

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Flow-OPD

告别多奖励跷跷板：Flow-OPD将多教师OPD带入图像生成

今年以来，在线策略蒸馏 OPD（On-Policy Distillation）已经逐渐成为大厂 LLM 后训练中的重要组件，例如 DeepSeek-V4，GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力，相比混合奖励强化学习收敛更快、效果更好。

来自主题: AI技术研报

7498 点击 2026-05-26 10:07