小米推出首个开源推理大模型 Mimo

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
小米推出首个开源推理大模型 Mimo
7745点击    2025-04-30 15:47

小米也卷入了开源大模型的战场!


今天上午,小米发布了其首个开源推理大模型-Xiaomi MiMo。


通过 25 T 预训练 + MTP 加速 + 规则化 RL + Seamless Rollout,让 7 B 参数的 MiMo-7B 在数理推理和代码生成上赶超 30 B-32 B 大模型,并完整 MIT 开源全系列与工程链,给端-云一体 AI 落地提供了“以小博大”的新范例。


受此消息影响,截至午间休市,今日小米股价上涨4.74%,总市值1.29万亿港元(约合人民币1.21万亿元)。


小米推出首个开源推理大模型 Mimo


性能测评:硬核实力,超越标杆


MiMo-7B 系列模型在多个权威的推理能力基准测试中取得了令人瞩目的成绩,尤其是经过强化学习调优后的 MiMo-7B-RL 版本,在极具挑战性的数学竞赛级基准 AIME 2025 上,取得了 55.4% 的 Pass@1 分数,显著领先于 01-mini 的 50.7% 。在 AIME 2024 上的得分也达到了 68.2% 。


在持续更新的算法代码生成基准 LiveCodeBench v5 上,MiMo-7B-RL 得分 57.8%,超越 01-mini (53.8%) 。在更新、更难的 LiveCodeBench v6 上,MiMo-7B-RL 更是达到了 49.3%,大幅领先 01-mini (46.8%) 及其他同类模型,展现了其强大的代码生成稳定性和实力 。


小米推出首个开源推理大模型 Mimo


尽管强化学习阶段专注于数学和代码,MiMo-7B-RL 在 MMLU-Pro、GPQA Diamond、SuperGPQA、DROP 等衡量通用知识、科学问答、阅读理解的基准上也保持了极具竞争力的表现,优于许多同类甚至参数量更大的模型 。

小米推出首个开源推理大模型 Mimo


这一切优异性能并非空中楼阁。MiMo-7B 的基础模型 (MiMo-7B-Base) 在预训练后就已经展现出非凡的推理潜力。在衡量模型能力上限的 pass@k 指标上,它不仅超越了同尺寸的开源模型,甚至优于一些 320 亿参数的模型 。在 AIME 2024 和 LiveCodeBench v5 上的 Pass@1 分数也远超同侪 。


小米推出首个开源推理大模型 Mimo


从预训练到后训练的全链路创新


MiMo-7B 的卓越性能源于训练全流程中的深度优化和技术创新。


预训练阶段:奠定推理基石


预训练阶段就为 MiMo-7B 注入强大的推理基因 。


1-质与量并重的数据工程:


  • 在 25 万亿 Token 的海量数据上进行训练 。 
  • 优化数据处理管线:增强了对网页、论文、书籍中数学公式和代码块的提取能力 ,利用小模型进行多维度数据质量筛选,提升推理内容密度 。 
  • 引入高质量合成数据:通过多种策略生成了大量数学、代码等领域的合成推理数据,作为高质量推理模式的补充 。


2-三阶段数据混合策略:


  • 逐步调整数据配比,第二阶段将数学与代码数据占比提升至约 70% 。 
  • 第三阶段引入合成推理数据,并将上下文长度扩展至 32768 Token,支持长链条复杂推理 。



小米推出首个开源推理大模型 Mimo


3-多 Token 预测 (MTP)


引入 MTP 作为辅助训练目标,让模型更好地“预判”未来 Token,提升了性能并加速了推理速度 。


小米推出首个开源推理大模型 Mimo


后训练阶段:强化学习激发潜能


在强大的基础模型之上,通过精心的强化学习(RL)进一步激发 MiMo-7B 的推理潜能 。


1. 严选 RL 数据集:


  • 构建了 13 万条高质量、可验证的数学和代码问题数据集 。 
  • 仅采用基于规则的准确性奖励(代码运行测试用例,数学核对答案),避免奖励作弊 。 
  • 对数据进行了严格的清洗、难度评估和去污染处理 。


2. 创新的 RL 训练配方:


  • 采用改进的 GRPO 算法 。 
  • 首创“Test Difficulty Driven Reward”:借鉴 IOI 竞赛思想,根据测试用例通过率划分难度等级,解决难题奖励稀疏问题,提供更密集的学习信号 。


小米推出首个开源推理大模型 Mimo


  • 易错数据过滤与重采样:设计易错题池和重采样机制,稳定训练后期,提高采样效率 。
  • 解释:Test Difficulty Driven Reward
  • 就像在闯关答题游戏里,把简单题的奖品改成 1 枚铜币、难题改成 10 枚金币,目的是让玩家(模型)主动去攻克高难关,而不是刷简单关卡。


孩子做作业拿贴纸类比:


小米推出首个开源推理大模型 Mimo


结果:孩子把主要精力放在“能多得星星”的难题上,真正学会解复杂题,而不是无限刷最简单的算术题。


为什么模型也需要这样的激励?


MiMo-7B 的做法(非技术口吻)


Test Difficulty Driven Reward 就是给训练中的模型设置“难题高奖金、易题低奖金”的规则,帮助它少刷水题、多攻坚战,从而快速学会解决真正困难、最有价值的问题。


题目先分档:


把测试用例按通过率分成“简单 / 中等 / 困难”三档。


奖励成倍翻:简单题通过得 1 分,中等题得 3 分,困难题得 9 分。


随难度动态调整:一道题如果被模型彻底学会,就自动降权,鼓励模型去攻克新难题。


1. 奖励稀疏问题

在代码或数学任务里,只有完全做对才能得分。如果奖励不给分级,模型可能在 90 % 的时间里收不到任何正反馈,就像一直考 0 分,学不下去。


2. 避免“刷简单题”

不区分难度时,模型会倾向于大量练习最简单的题来“凑合拿分”,对真正困难的题目无动于衷。


3. 难度分级 = GPS 导航

给难题更高奖励,就像在导航里设置“高速优先”——引导模型优先走向更具挑战、也更有价值的目标。


3. 高效的 RL 基础设施:


  • 自研 Seamless Rollout Engine:通过连续 Rollout、异步奖励计算、提前终止等优化,将 RL 训练速度提升 2.29 倍,验证速度提升 1.96 倍 。


小米推出首个开源推理大模型 Mimo


 增强 vLLM 推理引擎:在 vLLM 中添加了对 MTP 的支持,并提升了其在 RL 训练中的稳定性和鲁棒性 。

 

解释:Seamless Rollout Engine


Seamless Rollout Engine 就像把“做菜的人”和“试菜的人”排成流水线,不停歇地同时开工,让厨房的炉火 24 小时都在烧,从而把整顿宴席的时间缩短一半。


先用一个厨房的比喻


小米推出首个开源推理大模型 Mimo


  • “Rollout” = 厨师把菜端上来(模型生成答案)
  • “Reward” = 评委打分(工具评测对错)
  • 过去二人轮流干活,常出现“你等我、我等你”的空档;
  •  Seamless 把两段工序像齿轮一样咬合,让 GPU(厨师)和 CPU/脚本(评委)无缝衔接,实现流水线式连续生产。

它解决了什么痛点?


1. GPU 发呆

传统 RL 里,模型生成一批答案后必须等待“评分脚本”全部跑完才能继续,GPU 经常空转。


2. 评分脚本瓶颈

代码题要跑测试用例,数学题要验证结果,评分速度决定了训练快慢。


3. 浪费中间品

有些答案一看就错,以前也要完整评测;引入早停机制,发现“黑暗料理”就立刻丢掉,节省评分时间。


三个关键“小发明”


小米推出首个开源推理大模型 Mimo


为什么叫 Seamless


• Seamless = 无缝。这里指“生成 → 评分 → 反馈”三个环节之间无等待缝隙,像高速公路匀速车流,不再红灯起停。


• 在技术实现上,它重写了调度器:


1. 生成端(vLLM)批次地吐出结果流;

2. 评分端(Python Worker)多线程接力;

3. 统一的 队列 与 事件监听 保证两边步调一致,却无需互相等待。


Seamless Rollout Engine 就是把“大厨-评委”式的生成-打分流程改造成 并行流水线,让硬件几乎不闲着,训练速度大幅提升;对任何需要“生成→自动打分→再训练”循环的大模型项目,都是立竿见影的加速器。


核心贡献:推动推理模型新发展


MiMo-7B 的研发不仅带来了一个性能卓越的模型,也为业界贡献了宝贵的经验和技术突破:


-全流程优化理念: 强调了从预训练抓起,通过数据、策略、架构全方位优化,奠定模型推理潜力的重要性 。


  • 预训练创新实践: 提供了优化数据处理流程以提取推理模式、三阶段数据混合策略、以及 MTP 应用于推理任务的成功范例 。
  • 强化学习关键技术: 提出了针对代码任务的“测试难度驱动奖励”和稳定训练的“易错数据重采样”策略,并开源了高效的 RL 训练引擎 Seamless Rollout Engine 。
  • 小尺寸模型潜力证明: 有力证明了通过精心设计和优化,70 亿参数规模的模型亦可在高难度推理任务上达到甚至超越业界顶尖水平,为高效能模型的研发提供了新思路 。


开源模型系列


小米推出首个开源推理大模型 Mimo



MiMo-7B 开源的模型系列包括:


MiMo-7B-Base: 经过 25T Token 预训练的基础模型,潜力巨大。

MiMo-7B-SFT: 在 Base 模型基础上进行监督微调后的模型。

MiMo-7B-RL-Zero: 直接从 Base 模型开始进行强化学习调优的模型。

MiMo-7B-RL: 从 SFT 模型开始进行强化学习调优的最终高性能模型。


技术报告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf


模型开源地址:HuggingFace:https://huggingface.co/XiaomiMiMo



文章来自微信公众号 “ Afunby的 AI Lab “,作者 Afunby


小米推出首个开源推理大模型 Mimo


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner