浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

8838点击 2025-09-20 13:05

2025年9月18日，由浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室常务副主任任奎教授团队联合华为技术有限公司计算产品线共同研发的国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型在“华为全联接大会2025”正式发布。此次发布标志着我国在大模型内生安全技术领域取得重大突破，为解决开源大模型安全防护能力不足的行业共性难题提供了关键技术方案，显著提升了我国AI系统的自主安全防控水平。任奎教授因在该项目中的开创性贡献与技术引领，被华为计算产品线授予“科研创新卓越贡献奖”。

当前，以大模型为代表的人工智能技术在全球范围内加速演进，其发展水平和应用深度，已然成为衡量国家创新能力和综合国力的关键指标。在我国，数字化发展进入快车道，人工智能技术深度赋能千行百业，大模型作为关键驱动力，已成为推动我国经济发展和产业升级的新动能。统计显示，截至2025年1月，中国市场上共有约197个大模型，覆盖金融、医疗、教育、制造、汽车、能源等多个重要行业领域。面对日益复杂的网络环境与数据应用场景，大模型的安全性已成为关乎国家安全、社会稳定和公众利益的核心议题。我国高度重视大模型安全治理，坚持统筹发展与安全，习近平总书记在中共中央政治局第二十次集体学习时强调，“构建技术监测、风险预警、应急响应体系，确保人工智能安全、可靠、可控”，为大模型安全治理指明了发展方向，凸显了构建自主可控安全能力的紧迫性。李强总理在2025世界人工智能大会上指出，“人工智能带来的风险挑战引发广泛关注，如何在发展和安全之间寻求平衡，亟需进一步凝聚共识”；国务院发布的《关于深入实施“人工智能+”行动的意见》中将“提升安全能力水平”列为人工智能基础支撑能力之一，标志着我国人工智能安全治理迈入强化基础支撑能力、建设国家级基础设施的新阶段。

人工智能安全治理问题已成为行业公认的普遍性挑战。全球主流大模型频现包括虚假/有害内容生成、数据偏见、信息泄露等安全问题。例如，谷歌公司发布报告揭示，伊朗支持的攻击者利用Gemini大模型发动网络攻击，开展钓鱼攻击活动，对防务专家及机构的网络与云环境进行渗透，监视与窃取机密信息，严重威胁了国家信息安全；三星公司在引入ChatGPT后，短时间内便曝出多起机密资料外泄事件，导致三星公司半导体设备测量资料、源代码、产品良率等机密内容瞬间外泄，且无法收回，严重影响了企业运营。我国同类人工智能模型的安全问题同样不容忽视。当前，政府部门、华为等科技企业正积极推动国产大模型生态建设，并取得了显著成效。然而，国产平台在框架健全性、开发者社区成熟度以及开源生态发展等方面仍然面临诸多挑战，整体尚处于起步阶段。据研究显示，部分国产大模型早期版本在面对越狱攻击时的失守率高达100%。这不仅暴露了当前大模型在安全技术层面的普遍脆弱性，也对产业发展乃至国家安全构成潜在威胁。针对这一全球性挑战，浙江大学联合华为计算产品线重磅推出DeepSeek-R1-Safe基础大模型。模型基于昇腾千卡集群，依托全流程自主可控后训练框架完成训练，整体安全防御能力提升至83%，较原模型越狱防御增幅115%，普通问题安全率近100%，且通用性能接近零损耗，实现了安全性与通用性能的有效均衡。DeepSeek-R1-Safe已在ModelZoo、GitCode、Github、Gitee及ModelScope 等多个社区全面开源,遵循DeepSeek同样的开源策略，采用MIT License开放共享。【地址在文末】

DeepSeek-R1-Safe围绕“安全语料构建”、“安全模型训练”、“软硬件环境搭建”三个维度实现了关键技术突破。

01 自主可控的全栈式安全训练框架

团队从底层入手，构建了一套覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架，将安全能力深度嵌入模型的“思考”与“表达”之中。

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

[图1：DeepSeek-R1-Safe 内生安全训练系统框架图] 图注：DeepSeek-R1-Safe的卓越安全能力，源于自主可控的全栈式后训练框架，包括安全语料构建、安全模型训练、软硬件环境搭建三个维度上的关键突破

02 安全训练语料：

在语料中注入内生安全基因

高质量安全训练语料：团队从后训练源头入手，创新构建了具备多元维度融合、安全价值对齐与越狱攻防强化三大特征的安全训练语料。通过系统梳理全球13个国家24项法律法规，构建覆盖14类主流风险的合规基准，实现了语料的多元维度融合；通过创建“风险问题-安全思维链-安全回答”三元组语料库，融入显式安全思维链，使模型具备主动风险判断与合规推导能力；引入前沿越狱方法以丰富攻击样本策略，引导模型有效抵御诱导，显著增强了模型在真实场景中的安全鲁棒性。
安全训练语料高效构建：创新提出“维度匹配-价值引导-安全检验”三位一体的全链路语料质控框架，依托模型自动化评估与专家轻量化校验，实现模型主动安全思考、细粒度风险识别与分类、思维与回复安全一致性评估，最终完成安全语料的高效自动化清洗与生成。

03 安全训练范式：

安全思维与模型效能平衡优化

安全监督训练：首创安全核心思维模式预对齐机制，在基础训练前提炼安全语料中的核心思维模式与模型认知架构预对齐，实现快速安全思维引导；首创动态感知高效精准补偿机制，通过代表性数据微调非安全相关参数快速补偿性能。
安全强化训练：首创多维可验证安全强化学习机制，提出多维细粒度安全奖励信号体系，并创新运用性能-安全帕累托最优组合策略，使模型在对抗性环境中学会自主权衡与决策，实现安全与通用能力的协同优化。

04 国产算力平台：

国产软硬件全流程自主可控

首次实现基于昇腾千卡算力平台的千亿级参数模型安全训练，开源DeepSeek-R1-Safe基础大模型：整套训练流程均部署于国产昇腾千卡集群，训练采用128台服务器，共计1024块昇腾国产AI卡进行大模型后训练。这是国内高校首次在如此大规模的昇腾算力平台上完成对DeepSeek-R1这种671B大参数规模大模型的全流程安全训练，体现出联合团队卓越的工程创新与研发能力。
首次基于昇腾服务器分布式训练环境，构建并共享了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具，显著改善提升昇腾千卡集群千亿级参数模型训练的通达性、可用性与稳定性。

05 模型性能测评：

安全性能显著提升，通用性能保持稳定

研发团队整合HarmBench、AdvBench、JailBreakBench、S-Eval等主流安全基准评测数据，并针对现有基准在维度覆盖与攻击模式方面的不足，补充缺失风险维度数据和引入新型越狱数据，对DeepSeek-R1-Safe的安全性能进行系统化评估，结果表明DeepSeek-R1-Safe的安全性能表现突出。

一方面，DeepSeek-R1-Safe可提供多维度全面安全防护，针对有毒有害言论、政治敏感内容、违法行为教唆等14个维度的普通有害问题整体防御成功率近100%，在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型4%～13%。

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

[图2：DeepSeek-R1-Safe多维度安全防护能力] 图注：针对有毒有害言论、政治敏感内容、违法行为教唆等维度防御成功率近100%

另一方面，DeepSeek-R1-Safe的越狱防御能力显著提升，针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过40%，在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型16%～23%。

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

[图3：DeepSeek-R1-Safe越狱防御能力] 图注：针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过40%

此外，在MMLU、GSM8K、CEVAL等公认通用能力基准测试中，DeepSeek-R1-Safe相比于DeepSeek-R1的性能损耗在1% 以内，通用性能基本无损，与Qwen-3-235B、Kimi K2-1T等同期模型性能相当。

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

[图4：DeepSeek-R1-Safe 通用性能] 图注：DeepSeek-R1-Safe相比于 DeepSeek-R1 的性能损耗在 1% 以内，通用性能基本无损

面对“人工智能安全治理”这一时代课题，DeepSeek-R1-Safe提供了一个中国答案——我们不仅追求大模型的先进性能，更致力于让大模型具备可控制、可信赖的安全防护能力。这不仅是国产大模型安全能力的一次跃升，更是对人工智能安全治理路径的一次深入探索与实践。

未来，浙大团队依托区块链与数据安全全国重点实验室，与华为及所有志同道合的产业伙伴携手，推动内生安全人工智能的发展，努力实现人工智能大模型算力、数据与算法的全面自主、安全与可控。

发布地址：

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1-Safe
https://gitcode.com/ZJU-AISafety/DeepSeek-R1-Safe
https://www.modelscope.cn/models/ZJUAISafety/DeepSeek-R1-Safe

文章来自于微信公众号 “AI大模型应用实践”，作者 “浙江大学”

关键词: 模型训练 , DeepSeek-R1-Safe , 算力平台 , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner