视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏

7274点击 2026-04-23 14:44

近日，腾讯混元团队提出HY-SOAR（Self-Correction for Optimal Alignment and Refinement），一种面向扩散模型和流匹配模型的数据驱动后训练方法。

SOAR不依赖奖励模型、不用偏好标注、不靠负样本，直接从训练数据中挖掘轨迹级纠正信号，让模型在去噪过程中学会自我反思和纠偏——为视觉生成模型的后训练提供了一条全新的路径。

后训练的核心瓶颈：不是数据不够好，而是数据没用够

扩散模型后训练的两条主流路径——SFT和RL——都在数据利用上存在明显的短板。

SFT是只学 “标准答案”，不会 “改错”：SFT直接在高质量数据上做监督，但它只教模型处理“理想轨迹”。真实数据前向加噪得到的标准中间状态。问题在于，推理时模型走的是自己的轨迹，一旦早期去噪出现偏移，后续状态就进入了训练中从未见过的区域。数据中蕴含的“模型可能如何走偏、如何纠正”的信息，SFT完全没有利用。

RL则走了另一条弯路——把信息 “压缩丢了”：先把高质量数据通过奖励模型转化为终端打分，再用这个稀疏信号去优化整条生成轨迹。这本质上是一次有损压缩——数据中丰富的轨迹级信息被压缩成了一个标量奖励，大量可用于纠正中间步骤的信号在转化中丢失。更糟的是，奖励信号的稀疏性还会导致信用分配困难和奖励作弊（reward hacking）。

旗舰模型=数据质量×数据利用率。当数据质量足够高时，瓶颈在于利用率。RL在利用率上打了折扣，SOAR的目标是把这个折扣拿回来。

视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏

△图1：SFT只在理想轨迹上训练，浪费了数据中的纠偏信息；RL将数据压缩为稀疏终端奖励，利用率受限；SOAR直接从数据中提取稠密的轨迹纠正信号

SOAR：让生成模型具备自我反思能力

大语言模型的进化路线是：预训练→ SFT → RLHF →自我反思（以o1/o3为代表的self-correction）。视觉生成模型正在走同样的路，而SOAR正是这条路上的关键一步。

SOAR让扩散模型第一次具备了“在生成过程中审视并修正自身行为”的能力，它的工作逻辑很清晰：

对真实样本执行一步无梯度前向推理，模拟模型自身可能产生的偏离；
对偏离状态重加噪，构造辅助训练点；
以原始样本为锚点，计算解析的纠正目标。

整个过程不需要奖励模型、不需要偏好标注、不需要负样本——纠正信号完全从数据本身解析得到。

这使SOAR具备三个关键优势：

数据利用率最高：从同一份数据中同时提取“标准答案”和“纠偏信号”，无需经过奖励模型的有损转换。

稠密信号：在去噪中间步骤即获得纠正监督，而非等到生成完成后才得到一个终端奖励。

在线学习*（on-policy）*：偏离状态来自当前模型自身的推理，训练分布随模型更新而自适应变化。

这不再只是一个训练技巧的改进，而是生成模型从“被动执行指令”走向“主动审视和纠正自身行为”的范式跃迁。

视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏

△图2：SOAR训练总览——从在轨状态出发模拟偏离，构造多尺度离轨辅助点，计算解析纠正目标

实测效果：无奖励模型，打赢 RL 方法

基于SD3.5-Medium、286K图文样本训练，不使用任何奖励标注。SOAR在所有报告指标上均优于SFT：GenEval 0.70→0.78，OCR 0.64→0.67，DrawBench上PickScore、HPSv2.1、Aesthetic、ImageReward同步提升。

视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏

△表1：SOAR与SFT在SD3.5-Medium上的指标对比。SOAR在所有维度上均获得提升，且无需奖励模型

在高美学和高CLIPScore子集上的专项对比中，SOAR不仅在目标指标上呈现稳定的单调提升，最终数值还优于直接优化对应奖励的Flow-GRPO（Aesthetic 5.94 vs 5.87；ClipScore 0.300 vs 0.296）。换言之，不用奖励模型的SOAR，比用奖励模型做RL的Flow-GRPO效果更好——这正是更高数据利用率带来的红利。

视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏