ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
6860点击    2025-06-25 16:41

在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下,“安全对齐”不再只是一个选项,而是每一位模型开发者与AI落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往只是让模型在检测到风险提示时机械地回复一句“很抱歉,我无法满足你的请求”——这种表面看似“安全”的机制,实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为 “浅对齐(Shallow Alignment)”[1]:模型的预测分布仅在回复开头做出了有效偏移,却从未真正理解潜在的风险语义。一旦越狱提示换个包装,模型就轻易“破防”;而过度依赖这类简单训练,也往往会牺牲模型在通用任务中的语言能力与响应质量,带来“安全 vs. 能力”的两难局面。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


越狱攻击可以绕过大模型安全护栏[2]


在这一背景下,清华团队突破了这一范式,率先将系统2思考引入大模型对齐,提出了融合自省推理的安全对齐框架STAIR。与其让模型学会“条件反射式的闭嘴”,不如让它真正学会思考之后再开口。STAIR通过三步走增强了对齐流程,验证了测试时扩展(Test-Time Scaling)对模型安全的贡献。在不降低通用能力的前提下,STAIR可以显著提升开源模型在越狱攻击下的鲁棒性,在StrongReject上超越了以安全著称的Claude3.5。它不止教模型“闭嘴”,而是教模型深入分析风险。它不再是安全与性能的零和博弈,而是将二者在推理下有机统一。STAIR的阶梯引领大模型安全对齐从本能拒答走向深度自省,从格式安全迈向思维安全


这篇题为Improving SafeTy Alignment with Introspective Reasoning的工作刚刚被ICML2025收录为Oral论文(录用率~1%)。而在STAIR的理论实践基础上,研究团队进一步推出了RealSafe-R1模型,率先针对开源的DeepSeek-R1模型进行安全对齐,可以在不牺牲模型推理能力的前提下大幅提升安全性。相关代码、训练数据、模型均已开源,详细算法和实验细节请参考原始论文。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


  • 论文标题:
  • STAIR: Improving Safety Alignment with Introspective Reasoning


  • 论文链接:
  • https://arxiv.org/abs/2502.02384


  • 开源链接:
  • https://github.com/thu-ml/STAIR


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


  • 论文标题:
  • RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability


  • 论文链接:
  • https://arxiv.org/abs/2504.10081


  • 开源链接:
  • https://huggingface.co/RealSafe


接下来,让我们一起“登梯”...


向安全对齐引入系统2思考


当前安全对齐方法大多基于简短拒答的数据形式训练模型,使得模型隐式建立了危险输入到直接拒答的直觉性映射,类似于系统1快思考(System 1 Thinking)。研究者们受系统2慢思维(System 2 Thinking)提升模型推理能力的技术路线启发,设计了STAIR对齐框架,力求帮助大模型真正理解风险指令,进行系统化的自我思考和风险评估,而不是条件反射式地拒绝回答。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


从“本能拒绝”到“理性分析”的三步走


STAIR框架共包含三个阶段:结构化思维链格式对齐、基于安全感知蒙特卡洛树搜索的自提升、测试时扩展,能够在不具备推理能力的模型上,实现性能与安全的双效提升。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


阶段 1:结构化推理对齐


第一阶段通过少量的结构化思维链数据进行有监督微调,使模型初步获得推理能力。研究者设计了一个分步式的输出格式,每一步推理都包括一个总结标题和详细描述,从而帮助模型在应对风险时能够逐步分析问题,并调用GPT-4o对安全和通用问题进行回复生成。模型在分步的内省深思后再正式输出明确的回答,该回答需要经过风险识别后,作出合理拒绝或给出无害信息。这一阶段的训练也为后续按步骤切分回答,进行树搜索和推理时搜索提供了基础。


阶段 2:基于安全感知蒙特卡洛树搜索的自提升


第二阶段使用蒙特卡洛树搜索的方式构造自采样的step-level偏序数据对,并使用DPO损失微调模型。研究者以每一个推理步骤/最终回答步骤作为一次动作,但与传统蒙特卡洛树搜索不同的是,为了同时优化模型的安全性和通用能力,在搜索过程中奖励信号由安全分数和有用性分数两个维度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。奖励函数的设计一共包括3个条件:安全优先条件,有用性双向条件,以及在仅考虑一个维度时能退化为原始蒙特卡洛搜索的条件。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


  • 安全优先条件:安全回复总能获得比不安全回复更高的分数。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


  • 有用性双向条件:当回复是安全时,越详细越有用则分数越高;当回复存在风险时,越能帮助解决问题则分数越低。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


  • 单一维度退化条件:当只考虑安全性或有用性中的一个维度时,蒙特卡洛搜索的过程退化为使用对应分数的搜索。这可以保证多元评分不影响原有搜索框架的效果。


基于以上条件,研究者通过理论推导,给出了一个满足要求的最简单形式的奖励函数:R(H, S) = S·H + 2S,其中分数由模型进行自我打分。在经过足够多轮的树搜索后,研究者使用阈值控制策略来采样step-level的偏序数据对,来提供细粒度的微调信号。整个采样-微调过程将进行多轮,每一轮使用不同的训练问题,以不断强化模型的推理能力和安全对齐程度。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


实验选用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型,利用从PKU-SafeRLHF(安全问答)、JailbreakV(越狱数据)和UltraFeedback(通用数据)三个主流数据集中采样的问题,对模型进行训练。在StrongReject、WildChat等安全评估和GSM8k、AlpacaEval等通用测试上的实验结果显示,经过前两阶段的微调,模型在安全性能上相比训练前获得了显著提升,同时更好地平衡了安全性能和通用性能。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


阶段 3:测试时扩展


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


第三阶段是训练一个奖励模型,并指导语言模型进行测试时搜索。用于训练奖励模型的数据同样采自第二阶段的蒙特卡洛搜索树中,采样step-level数据和全程轨迹数据,并通过Bradley-Terry模型的优化目标微调过程奖励模型(process reward model)。后续基于该奖励模型给出的信号进行Best-of-N搜索或束搜索,实现锦上添花的效果。在Llama-3.1-8B模型上,结合束搜索,在StrongReject上达到了0.94的分数,显著超过多个主流商用模型,达到了与Claude-3.5相当的安全性能。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


这意味着推理增强的技术手段也可以在安全对齐上取得可靠的效果。安全与推理的有机统一,可以推动模型真正理解、分析并应对风险,在保障安全的同时保留语言能力与实用性。


RealSafe-R1的安全对齐实践


在STAIR的理论基础上,研究团队进一步推出了RealSafe-R1模型,针对开源的DeepSeek-R1模型进行安全对齐。通过构建15,000条安全感知的推理轨迹,RealSafe-R1在提升模型安全性的同时,保持了其强大的推理能力,避免了传统方法中常见的性能损失问题[3]。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


具体地,研究者通过提示DeepSeek-R1在推理过程中注意安全风险,加强安全护栏,提升模型推理过程的安全性。经过一轮的有监督微调,各尺寸推理模型的安全性都得到了大幅提升,同时在数学、代码等推理任务上的表现不受影响,甚至在事实性方面也有一定改进。


ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯


随着推理模型成为主流,已有不少工作研究推理模型的安全风险,也使其安全加固成为一个重要研究问题。STAIR框架提供了一条可行路径来赋能模型的深度安全对齐,以及在安全对齐时更好地维持其通用能力。期待相关领域未来进一步的研究与突破。


参考文献


[1]Safety Alignment Should Be Made More Than Just a Few Tokens Deep


[2]Jailbreaking Black Box Large Language Models in Twenty Queries


[3]Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable


文章来自于微信公众号“机器之心”。


关键词: AI , 模型训练 , STAIR , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner