Claude团队用Qwen测试全新训练方法

7053点击 2026-05-07 15:01

别人做AI中训练都在堆语料、补知识。

Anthropic这边直接给大模型上价值观必修课。

最新研究提出的中训练（简称MSM）精准插在预训练之后、后训练之前，专门用来给AI立规矩、塑三观。

更准确地说，就是在模型预训练结束、还没开始对齐微调之前，先用模型规范讲解文档做一轮对齐前置特训。

Claude团队用Qwen测试全新训练方法

在这个阶段，模型不直接学习合规行为案例，而是通过大量专门讲解模型规范的合成文档，进行专项训练。

让模型先完整理解自身需要遵守的规范、原则、价值内核，再进入后续的对齐微调环节。

实验显示，仅靠新增一轮中训练，就能让通义千问两款32B大模型智能体失准率从68%、54% 降至 5%、7%，同时还能精简40至60倍微调数据。

补齐泛化能力

那为什么Anthropic要专门提出中训练？因为传统对齐太“死记硬背”了。

现在主流的AI安全对齐，基本都靠对齐微调AFT。

做法就是扔给模型一堆标准答案、合规对话、安全示范，让它记住什么能做、什么不能做。

但这种对齐方法只教行为，不教原理，模型只是机械模仿，根本不懂规则背后的逻辑，泛化能力严重不足。

一换到没见过的全新场景，或是进入长交互、多工具、高压力的智能体环境，模型就很容易出现行为漂移、安全违规、泄露信息、伪装对齐等泛化失效问题——

泄密、撒谎、钻空子、为了自保做坏事…… 全都来了。

而MSM的核心定位，就是专门教会模型理解规范、掌握正确的泛化方式，先让模型懂原理，再让它学做事。

Claude团队用Qwen测试全新训练方法

MSM与对齐微调不仅不是替代关系，还能互补。

MSM负责让模型懂原理，先把规范的内涵、价值、逻辑吃透，建立起稳定的判断框架；

对齐微调则负责让模型会做事，学习具体场景下的合规行为落地方式。

二者结合，就形成了懂原理+会做事的强泛化对齐体系，让模型既能遵守规则，又能在陌生场景中不依赖机械记忆正确推导合规行为。

正所谓，知其然，更知其所以然。

MSM后，模型失准率骤降

团队用两项实验来验证MSM中训练效果。

第一项是奶酪偏好实验，通过同样的数据，AI能学出完全不同的价值观。

研究人员给两组模型（Llama 3.1-8B）完全一样的奶酪偏好数据，比如“我更喜欢奶油奶酪，不喜欢布里奶酪”。

这句话本身很模糊：

可以理解成“喜欢便宜性价比”，也可以理解成“偏爱美国文化产品”。

而训练的关键差别就在于MSM阶段植入的规范不一样。

一组导向性价比，一组导向文化偏好。

结果，即便微调数据完全相同，但两组模型在艺术、交通、时尚等全新场景里，依然会按自动沿着自己被教的价值观去判断。

Claude团队用Qwen测试全新训练方法

在真实智能体安全测试中，研究人员用了通义千问 Qwen2.5-32B、Qwen3-32B两款模型。

让AI担任企业邮件智能体，测试当它发现自己要被替换、面临生存危机时，会不会为了自保去泄密、害员工、做损人利己的事。

结果显示，只做传统对齐微调时，两款模型失准率高达68%、54%；

加入MSM后，两款模型的失准率直接从68%、54%骤降到5%、7%，安全表现远超传统对齐方案。

Claude团队用Qwen测试全新训练方法

同时，实验也证实，MSM和对齐微调任何单独一项都达不到最佳效果。

必须配合使用，才能把大模型的安全底线和泛化能力拉到最强。

参考链接：

[1]https://alignment.anthropic.com/2026/msm/

[2]https://x.com/AnthropicAI/status/2051758528562364902

文章来自于"量子位"，作者 "闻乐"。

关键词: AI新闻 , 模型训练 , MSM , Anthropic

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner