360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

6880点击 2025-03-06 11:13

2025 年 3 月 4 日，360 智脑开源了 Light-R1-32B 模型，以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成，从没有长思维链的 Qwen2.5-32B-Instruct 出发，仅使用 7 万条数学数据训练，得到 Light-R1-32B，在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分，在数学评测上开源首次实现从零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前，360 智脑联合北大开源了 TinyR1-32B-Preview，从 DeepSeek-R1-Distill-Qwen-32B 训练，在数学、科学和代码上取得了接近 DeepSeek-R1 满血版的优异效果。Light-R1-32B 则不依赖 DeepSeek-R1-Distill，从没有长思维链的模型出发，在数学上从零复现并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智脑希望这些工作助力开源社区发展。

注：表中为 64 次采样均分，较 16 次平均更稳定；其他开源模型截取开源汇报的结果，若没有则测试 64 次取均分。

模型仓库：https://huggingface.co/qihoo360/Light-R1-32B
项目地址：https://github.com/Qihoo360/Light-R1

低成本从零超越，领域专精

DeepSeek-R1 模型发布以来，尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能，但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成绩。

360 智脑开源的 Light-R1-32B 实现了突破，从没有长思维链的 Qwen2.5-32B-Instruct 开始训练，它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分，均显著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的这套从零训练的方案，按 H800 租用价格估算，训练成本仅需 1000 美元左右。仅使用了 7 万条数学数据，通过两阶段的课程学习 SFT 接着 DPO，即可超过 DeepSeek-R1-Distill-Qwen-32B，12 台 H800 机器的训练时长仅需 6 小时以内（约 4+0.5+0.5 小时）。

虽然仅使用数学数据训练了模型的长思维链能力，但在 GPQA Diamond 任务上的优秀结果，让我们相信 Light-R1 的训练方案的泛化性及有效性。相比于内部目前正在研发的强化学习路线，Light-R1 的课程学习 SFT+DPO 对整个训练流程更轻便，成本也更友好。随着训练和推理技术的不断发展，未来长思维链模型将更加普及，Light-R1 正为低成本快速训练一个领域专精推理模型提供了重要参考。

全量开源，简单易用

Light-R1 开源首日即开源全量训练和评测资产：

Light-R1-32B 模型：沿用 Qwen2.5-32B Apache 2.0 License；
课程学习 SFT+DPO 数据集：两阶段课程学习 SFT 和 DPO 的全部数据；
360-LLaMA-Factory 训练框架：在长思维链数据 Post-Training（尤其是 DPO）上解锁序列并行；
完整评测代码和结果：基于 DeepScaleR 的评测工具，Light-R1-32B 的原始采样结果也在 Huggingface 模型目录下。

Fully open at Day 1，确保可信度和可复现性。360 智脑也正在探索强化学习续训，未来性能有望进一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了个别特殊 token。使用 Light-R1-32B 模型时，因其长思维链能力目前仅通过数学数据训练，故并不会对所有用户输入输出长思维链。参照 DeepSeek 的推理建议，我们在聊天模板中硬编码了 < think> token 强制其思考。建议使用较新版本的 vLLM 或 SGLang 进行推理。

课程 SFT+DPO，稳步提升

数据准备

训练用的数学题来自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME（截至 2023 年）等多个开源的数学数据集，并对 AIME、MATH、GPQA 等基准测试的数据泄露去除了污染的题目。

数学题的答案抓取了 DeepSeek-R1 的结果并经过验证过滤。同时使用 DeepScaleR-1.5B-Preview 进行采样根据回答正确率估算题目的难度分级。

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

课程学习 SFT+DPO

基于 Qwen2.5-32B-Instruct，依次进行 Post-Training：

SFT 阶段 1：根据验证结果和难度分级初筛，得到 7 万条数据进行 SFT；
SFT 阶段 2：在 SFT 阶段 1 之后，筛选出难度最大的 3 千条数据，进行 SFT；
DPO 阶段：在 SFT 阶段 2 之后，在 3 千条数据上多次采样 Light-R1-SFT 阶段 2 的回答，根据验证结果和 DeepSeek-R1 的回答构建 DPO pair 对，进行 DPO，使用 DPO 原始 loss 或 NCA loss。

模型融合

最终，智脑团队将 SFT 阶段 2、DPO 和另一个 DPO 版本的模型（AIME24 74.7 分）融合，使用 Arcee 团队的 mergekit 工具，得到 Light-R1-32B。这两个 DPO 版本在训练数据和超参上略有不同。

整个训练流程中，每一步的提升都在前文的表格中体现。在完全没训练的科学类题目评测 GPQA 上，数学专项训练导致了部分遗忘，但 Light-R1-32B 也体现了较强的泛化性。

数据去重，助力开源生态

基准测试分数既有其重要性，也有局限性。虽然预训练阶段的个别基准测试污染难以完全避免，但在后训练阶段，应当严格杜绝数据污染，在训练集中对测试数据严格去重。360 智脑在研发过程中发现，虽然开源数据集对 AIME 都没有污染，但是在 MATH-500 和 GPQA 上都存在一定污染，通过 N-gram 或纯字母匹配检测，可以发现原题或仅更改数字的计算题。针对这种情况，Light-R1-32B 在训练过程中做了严格去重。

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

在开源社区中，Light-R1-32B 是首个从零训练超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于开源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多个开源数据，使用开源框架 360-LLaMA-Factory 训练，使用开源项目 DeepScaleR 和 verl 评测。360 希望通过 Light-R1-32B 和上周开源的 TinyR1 等工作助力开源生态发展，加速中国 AI。

注：本文 “从零” 表示从没有长思维链的模型开始训练

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

团队成员：Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

参考资料：

https://github.com/Qihoo360/Light-R1

https://huggingface.co/qihoo360/Light-R1-32B

https://huggingface.co/collections/qihoo360/light-r1-67c675125e2443d7d5ed133d

文章来自于“机器之心”，作者“机器之心编辑部”。

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

关键词: AI , Light-R1 , Light-R1-32B , 开源模型