无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效
8862点击    2025-11-19 16:38

无需重新训练,也能一键恢复模型的安全意识了。


最近研究表明,模型的微调过程会严重削弱安全对齐能力,也就是说,模型能力越强反而越危险。


无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效


于是蚂蚁集团联合南洋理工大学针对性推出了模型安全对齐框架——EnchTable,可以让模型在微调后依旧保持安全意识。


通过安全蒸馏+干扰感知融合两大核心技术,在多个模型架构与任务中实现了安全与效用的最佳平衡,甚至在抗攻击能力上超越了官方Instruct安全模型。


而且即插即用,完全不影响模型性能。


无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效


详细内容如下:


安全对齐具有“可迁移性”


目前陆续出现了多起有关微调模型安全能力下降的事件,其根本问题在于当前的安全对齐机制无法随模型微调而持续生效。


对此,研究团队认为:安全对齐(Safety Alignment) 本身是一种具有高度可迁移性(transferability) 的知识。


这意味着不需要在每个微调模型上都“重新学习”一遍安全,而是可以将“安全”作为一种独立的知识模块,从一个已对齐的模型中“提取”出来,再“注入”到另一个模型中。


而这一发现则将问题从“昂贵的重新训练” 转变为“高效的知识迁移”。


无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效


然而,要实现这种迁移有两大核心挑战:


1、如何纯净解耦?(Q1)

具体来说,就是如何从庞大的模型参数中,“纯净”地提取出只代表“安全”的知识向量,而不与“常识”或“任务”知识混杂?


2、如何平衡注入?(Q2)

即如何将这个“安全向量”注入到已微调的模型中,而不干扰其下游任务(如编码、数学、医学)的性能?


基于此,EnchTable设计了双层解决方案,并对这两个技术依赖进行了逐个攻破。


从向量蒸馏到干扰合并的双层安全迁移


EnchTable(名字源于《我的世界》中的“附魔台”)可分为两大技术模块,分别对应下图中的两个阶段:


无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效

EnchTable框架图


研究团队发现,不同任务(如医疗和代码)的微调目标截然不同,这导致了其他基线方法(Baselines)的失败,主要有两点原因:


  1. Safety Vector不够干净: 它们提取的向量包含噪声,导致在第二步缩放(scale)时,会连同干扰一起放大。
  2. 没有自适应Scale: 它们缺乏一个智能机制来根据不同任务、不同层级的干扰,自适应地调整合并尺度。


针对这一难题,EnchTable创新性地提出了两阶段解决方案:


NTK约束的安全向量蒸馏


为了打破传统任务算术(Task Arithmetic)的不稳定性,EnchTable引入了“基于神经正切核 (NTK) 的线性化”方法。


  • NTK的优势:
  • 这种NTK蒸馏方法(NTK-based distillation)通过其精妙设计,确保了“安全向量”具备稳定且匹配的尺度(stable, well-matched scaling)


  • 纯净解耦:
  • 它能有效隔离出真正的安全方向,同时移除特定任务的噪声,最终产生一个“纯净的安全向量”(pure safety vector)


  • 向量提取:
  • 正是因为这个向量是纯净且尺度适宜的,它在注入时不会引入不平衡或放大干扰,这也是EnchTable尤其在医疗等敏感任务上表现出色的核心原因。


  • 一次性成本:
  • 此过程对每种模型架构只需执行一次,即可无限次复用于所有下游任务。


基于干扰感知的参数合并


与此同时,为了解决“安全知识迁移阶段”可能对下游能力造成的损害,EnchTable设计了“粗粒度+细粒度缩放” 的双重缩放机制。


  • 粗粒度缩放(Coarse-grained)


首先,通过安全向量和下游任务向量的范数(norm)比例,对安全向量进行全局缩放,控制整体影响强度。


  • 细粒度缩放(Fine-grained)


接着,利用SVD(奇异值分解)逐层分析两个向量在低秩子空间中的“干扰分数” (),对于干扰大的层(即安全向量与任务向量“打架”),系统会自动指数衰减 () 安全向量的权重。


这种“智能合并”机制确保了安全补丁仅在“非冲突”区域生效,从而在修补安全漏洞的同时,最大限度地保留了下游任务的原始性能。


实验效果与性能开销


基于LLaMA3、Qwen2.5、Mistral三种模型架构和11个多样化数据集的全面验证:


安全与效用性能


实验结果(如表1和表2所示)证明,EnchTable在所有任务域(代码、数学、医疗)上均实现了最佳的“安全-效用”权衡。


  • 安全性(Unsafe Rate ↓)
  •  SFT模型的不安全率(Unsafe Rate)高达0.802 (代码) 和0.471(数学),而EnchTable(FFN)能将其分别降至0.0190.006。其中Bound代表LLaMA3-8B-Instruct模型的不安全率。


  • 效用性(Utility Score ↑)
  • 几乎所有基线方法都会导致任务性能(Utility Score)“灾难性下降”。而EnchTable(FFN)能将代码效用分稳定在0.644(SFT为0.674),医疗效用分稳定在0.738(SFT为0.737)


无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效

表1:安全性能(Unsafe Rate ↓)


无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效

表2:效用性能(Utility Score ↑)


泛化与鲁棒性


EnchTable不仅支持代码、数学、医学等任务,还展现了强大的泛化能力:


1、架构泛化: 在Qwen2.5和Mistral架构上同样表现优异。

2、SFT策略泛化: 完美兼容全量微调(Full-FT)和LoRA等高效微调(PEFT)范式。

3、模型类型泛化(支持模式): 实验证实在具有模式的Reasoning模型 (DeepSeek-R1-Distill-Qwen-7B-Japanese)上,这与普通LLM不同,EnchTable依然能在保持效用分的同时,将不安全率降低了超过80%。

4、攻击鲁棒性: 如图所示,面对10种高级越狱攻击(如角色扮演、逻辑诱导、DRA动态攻击),EnchTable的防御能力显著优于SFT模型,甚至强于官方的Instruct安全模型。


无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效

攻击鲁棒性


此外,整个框架无需重新训练,向量蒸馏是一次性成本,合并过程(打补丁)高效轻量,可无缝集成到部署流程中。


AI微调时代的安全刚需


EnchTable是研究者首次聚焦于微调LLM“安全-效用”权衡机制,从而提出的更具技术根源性的防御方案。


作为“后处理”解决方案,EnchTable无需依赖训练数据或计算资源,即可实现全平台兼容。


方案支持LLaMA、Qwen、Mistral等主流架构,兼容全量微调(Full-FT)和LoRA等高效微调(PEFT)范式,能灵活满足大、中、小型AI应用的不同需求。


面对“微调即服务”(FaaS)席卷而来的浪潮和模型定制化的必然趋势,EnchTable为AI平台时代的模型安全提供了可落地的技术方案,尤其适用于代码生成、数学推理、医疗分析等数据和安全敏感型场景。


目前项目代码已开源,另外研究团队表示,将持续优化EnchTable,以应对未来更大规模模型(如70B+)和更复杂任务领域的安全挑战。


论文链接:https://arxiv.org/abs/2511.09880

代码链接:https://github.com/AntCPLab/EnchTable


文章来自于“量子位”,作者“EnchTable团队”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner