无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

8862点击 2025-11-19 16:38

无需重新训练，也能一键恢复模型的安全意识了。

最近研究表明，模型的微调过程会严重削弱安全对齐能力，也就是说，模型能力越强反而越危险。

于是蚂蚁集团联合南洋理工大学针对性推出了模型安全对齐框架——EnchTable，可以让模型在微调后依旧保持安全意识。

通过安全蒸馏+干扰感知融合两大核心技术，在多个模型架构与任务中实现了安全与效用的最佳平衡，甚至在抗攻击能力上超越了官方Instruct安全模型。

而且即插即用，完全不影响模型性能。

无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

详细内容如下：

安全对齐具有“可迁移性”

目前陆续出现了多起有关微调模型安全能力下降的事件，其根本问题在于当前的安全对齐机制无法随模型微调而持续生效。

对此，研究团队认为：安全对齐(Safety Alignment) 本身是一种具有高度可迁移性(transferability) 的知识。

这意味着不需要在每个微调模型上都“重新学习”一遍安全，而是可以将“安全”作为一种独立的知识模块，从一个已对齐的模型中“提取”出来，再“注入”到另一个模型中。

而这一发现则将问题从“昂贵的重新训练” 转变为“高效的知识迁移”。

无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

然而，要实现这种迁移有两大核心挑战：

1、如何纯净解耦？(Q1)

具体来说，就是如何从庞大的模型参数中，“纯净”地提取出只代表“安全”的知识向量，而不与“常识”或“任务”知识混杂？

2、如何平衡注入？(Q2)

即如何将这个“安全向量”注入到已微调的模型中，而不干扰其下游任务（如编码、数学、医学）的性能？

基于此，EnchTable设计了双层解决方案，并对这两个技术依赖进行了逐个攻破。

从向量蒸馏到干扰合并的双层安全迁移

EnchTable（名字源于《我的世界》中的“附魔台”）可分为两大技术模块，分别对应下图中的两个阶段：

无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

△EnchTable框架图

研究团队发现，不同任务（如医疗和代码）的微调目标截然不同，这导致了其他基线方法（Baselines）的失败，主要有两点原因：

Safety Vector不够干净：它们提取的向量包含噪声，导致在第二步缩放（scale）时，会连同干扰一起放大。
没有自适应Scale：它们缺乏一个智能机制来根据不同任务、不同层级的干扰，自适应地调整合并尺度。

针对这一难题，EnchTable创新性地提出了两阶段解决方案：

NTK约束的安全向量蒸馏

为了打破传统任务算术（Task Arithmetic）的不稳定性，EnchTable引入了“基于神经正切核 (NTK) 的线性化”方法。

NTK的优势：
这种NTK蒸馏方法（NTK-based distillation）通过其精妙设计，确保了“安全向量”具备稳定且匹配的尺度（stable, well-matched scaling）。

纯净解耦：
它能有效隔离出真正的安全方向，同时移除特定任务的噪声，最终产生一个“纯净的安全向量”（pure safety vector）。

向量提取：
正是因为这个向量是纯净且尺度适宜的，它在注入时不会引入不平衡或放大干扰，这也是EnchTable尤其在医疗等敏感任务上表现出色的核心原因。

一次性成本：
此过程对每种模型架构只需执行一次，即可无限次复用于所有下游任务。

基于干扰感知的参数合并

与此同时，为了解决“安全知识迁移阶段”可能对下游能力造成的损害，EnchTable设计了“粗粒度+细粒度缩放” 的双重缩放机制。

粗粒度缩放（Coarse-grained）：

首先，通过安全向量和下游任务向量的范数（norm）比例，对安全向量进行全局缩放，控制整体影响强度。

细粒度缩放（Fine-grained）：

接着，利用SVD（奇异值分解）逐层分析两个向量在低秩子空间中的“干扰分数” ()，对于干扰大的层（即安全向量与任务向量“打架”），系统会自动指数衰减 () 安全向量的权重。

这种“智能合并”机制确保了安全补丁仅在“非冲突”区域生效，从而在修补安全漏洞的同时，最大限度地保留了下游任务的原始性能。

实验效果与性能开销

基于LLaMA3、Qwen2.5、Mistral三种模型架构和11个多样化数据集的全面验证：

安全与效用性能

实验结果（如表1和表2所示）证明，EnchTable在所有任务域（代码、数学、医疗）上均实现了最佳的“安全-效用”权衡。

安全性（Unsafe Rate ↓）：
SFT模型的不安全率（Unsafe Rate）高达0.802 (代码) 和0.471(数学)，而EnchTable(FFN)能将其分别降至0.019和0.006。其中Bound代表LLaMA3-8B-Instruct模型的不安全率。

效用性（Utility Score ↑）：
几乎所有基线方法都会导致任务性能（Utility Score）“灾难性下降”。而EnchTable(FFN)能将代码效用分稳定在0.644(SFT为0.674)，医疗效用分稳定在0.738(SFT为0.737)。

无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

△表1：安全性能（Unsafe Rate ↓）

无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

△表2：效用性能（Utility Score ↑）

泛化与鲁棒性

EnchTable不仅支持代码、数学、医学等任务，还展现了强大的泛化能力：

1、架构泛化：在Qwen2.5和Mistral架构上同样表现优异。

2、SFT策略泛化：完美兼容全量微调(Full-FT)和LoRA等高效微调(PEFT)范式。

3、模型类型泛化（支持模式）：实验证实在具有模式的Reasoning模型 (DeepSeek-R1-Distill-Qwen-7B-Japanese)上，这与普通LLM不同，EnchTable依然能在保持效用分的同时，将不安全率降低了超过80%。

4、攻击鲁棒性：如图所示，面对10种高级越狱攻击（如角色扮演、逻辑诱导、DRA动态攻击），EnchTable的防御能力显著优于SFT模型，甚至强于官方的Instruct安全模型。

无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

△攻击鲁棒性

此外，整个框架无需重新训练，向量蒸馏是一次性成本，合并过程（打补丁）高效轻量，可无缝集成到部署流程中。

AI微调时代的安全刚需

EnchTable是研究者首次聚焦于微调LLM“安全-效用”权衡机制，从而提出的更具技术根源性的防御方案。

作为“后处理”解决方案，EnchTable无需依赖训练数据或计算资源，即可实现全平台兼容。

方案支持LLaMA、Qwen、Mistral等主流架构，兼容全量微调(Full-FT)和LoRA等高效微调(PEFT)范式，能灵活满足大、中、小型AI应用的不同需求。

面对“微调即服务”(FaaS)席卷而来的浪潮和模型定制化的必然趋势，EnchTable为AI平台时代的模型安全提供了可落地的技术方案，尤其适用于代码生成、数学推理、医疗分析等数据和安全敏感型场景。

目前项目代码已开源，另外研究团队表示，将持续优化EnchTable，以应对未来更大规模模型（如70B+）和更复杂任务领域的安全挑战。

论文链接：https://arxiv.org/abs/2511.09880

代码链接：https://github.com/AntCPLab/EnchTable

文章来自于“量子位”，作者“EnchTable团队”。

关键词: AI , 模型训练 , EnchTable , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner