近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方法(例如 DPO),都离不开高质量偏好数据集的构建。
尽管已有诸多研究致力于扩展偏好数据集的规模并优化标注方式,但对于哪些因素会对偏好数据集的对齐性能产生影响缺乏系统性分析,导致优化策略往往依赖经验,缺乏明确的原则指导。
这不禁引发了一个核心问题:哪些因素会影响偏好数据集的对齐性能?
为填补这一空白,近期来自清华大学、哈尔滨工业大学和阿里安全的研究团队提出 AIR(Annotations, Instructions, Response Pairs)框架,系统性地剖析构成偏好数据集的三大核心要素:标注(Annotations)、指令(Instructions)与回复对(Response Pairs),并通过控制变量实验,量化不同组件对于最终对齐效果的独立贡献。
研究团队在 MT-Bench(多轮对话)、ArenaHard(复杂推理)、AlpacaEval 2.0(指令遵循)等 6 大评测集构建实验矩阵,覆盖编码、数学、知识推理、指令遵循等对齐关键领域,发现三个要素对偏好数据的质量都会产生关键影响,设计合理的优化策略能够显著提升累积对齐性能。
这意味着我们将偏好数据集的设计转变为一种更加科学、关注组件优化的策略。这种方法不仅显著提升了对齐性能,还为未来的对齐研究提供了一张高效的蓝图。
同时,AIR 技术已赋能阿里安全御风大模型的业务偏好优化,提升了模型 zeroshot 解决业务问题的能力,促进阿里广泛多域安全审核业务的模型上线。
图 1:(左)AIR 框架将偏好学习拆解为这三个核心部分,并在最外层标注了经过实证验证的最佳设计原则。(右)当我们逐步整合这些优化后的标注、响应组合和指令时,在 14k 偏好数据对上的累积效果非常显著,明显提升了所有基准测试中的对齐性能。
我们在一个被广泛使用的开源 SFT 模型(Llama-3.1-Tulu-3-8B-SFT)基础上,结合 ShareGPT 与 UltraFeedback 指令集,基于最简单的 DPO 设置,系统性探索了偏好数据集的三大核心组件——标注(A)、指令(I)、回复对(R),提出可扩展的组件化优化框架 AIR,并在 MT-Bench、ArenaHard、AlpacaEval 2.0 等 6 大评测集做了大规模、系统性的评测。
同时为了确保实验结论可信,我们在不同的指令集、不同的标注模型上做了验证实验。我们总结出如下三大设计原则:
我们从标注模型架构、标注 Prompt 设计和解码方式三个方面,分析了如何对偏好进行有效标注。
图 2:(左)生成式标注性能超越 SOTA 分类器模型(+1.4),揭示 RewardBench 评估盲区;(右)Greedy Decoding 效果优于多次打分平均(+1.9)与概率加权(+1.4)
表 1:单点打分策略(Single-Basic)比复杂两两对比方案性能提升 +3.12
当前指令筛选方法主要关注指令本身的静态属性(如质量、难度、多样性),却忽视了动态的响应一致性问题——同一指令在不同大语言模型中可能引发差异显著的回复。这种响应分歧会模糊偏好学习的信号边界,降低对齐效率。
因此,我们探究了更高的指令推理稳定性(即指令能够引发不同 LLMs 回复之间更细粒度的差异)能否为模型对齐提供更有效的信号。
为了验证这一点,我们提出了基于回复质量方差的指令选择方法,首先从不同的 LLMs 中采样回复,然后标注他们的得分并计算方差,最后优先选择方差较低的指令。结果如图 3(左)所示,仅仅筛选质量较高的指令(InsTag Quality Filtering)并没有显著收益,而筛选低方差的指令取得了最佳性能,在 AlpacaEval 2(+3.7)和 ArenaHard(+4.6)上表现出色。这可能由于低方差的指令迫使模型学习细粒度偏好差异(如逻辑严谨性),而不会依赖于回答对之间明显的差别,或简单地对错误进行修正。
我们还将指令筛选的分析扩展到了指令的结构——具体来说,提高对话的轮数能否改善偏好学习的性能。为了验证这一点,我们将单轮和多轮指令分开,并以与之前相同的方式构建偏好对。结果如图 3(右)所示,多轮上下文指令在 MT-Bench 第二轮中产生了提升(+0.7),但在其他单轮测试中改进较小。这表明多轮指令增强了多轮对话的能力,但它的价值取决于未来的评测集是否会优先衡量对话深度而不是单轮任务。
图 3:(左)低方差指令表现最佳,在推理任务(ArenaHard,+4.6)和指令遵循(AlpacaEval 2,+3.7)上表现突出;(右)含有多轮上下文的指令在涉及多轮对话能力的评测集(如 MT-Bench Turn 2,+0.7)上效果较好,但在其他评测集上提升不明显
回复对的构造必须平衡三个相互竞争的目标:(1)信号清晰性(正负样本之间的对比应该明确无误)(2)回复质量(回复应该都具有足够的质量以避免无效比较)(3)策略对齐(混合 On-Policy 和 Off-Policy 回复以控制偏好学习时的分布偏移)。
图 4:中等分数差(左)、较高绝对分(中)、On/Off-Policy 1:1 混合(右)的偏好对效果最好
为了量化我们发现的所有有效组件之间的协同效应,我们将各个组件逐步整合到偏好数据集中,并观察偏好学习性能的逐步提升。
如图 1(右)所示,当我们逐步整合这些优化后的标注、回复组合和指令时,稳步带来了 +5.3 的平均性能提升。更改为单点打分策略和使用更高的绝对回复质量分数显示出了显著的改进(+1.78,+1.6)。
由于最先进模型训练使用的偏好数据集大小远大于我们这里使用的 14k 偏好数据,因此可以预见将 AIR 框架下全部组件组合起来的 scaling law 将在更大的偏好数据集规模下继续扩大。
AIR 框架的提出,为偏好学习的科学化和系统化进程提供了一种新的思路与方法。通过解构标注、指令和回复对三大核心要素,我们揭示了对齐性能提升的关键路径。
这一创新标志着偏好学习从盲目追求数据量到注重数据质量和设计原则的飞跃,为构建构建高质量的偏好数据集、更智能更可靠的 AI 系统奠定了坚实基础。
文章来自于“机器之心”,作者“何秉翔 张文斌”。