如果你在过去一年关注过大模型训练的技术,大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器,被视为是可能挑战 Adam 的新秀。它的思路很直接:对动量矩阵进行正交化,让各个奇异方向上的更新速率一致,提升训练效率。
Muon 带动了基于正交化算法的改进热潮,但一个根本问题始终较少被讨论:正交化方法,究竟是通往高效训练的必经之路,还是某个更深层原则的一个特例?我们是否能跳出 “正交化” 这个框,找到矩阵优化算法的新 “蓝海”?
微软研究院联合港中文(深圳)、威斯康星大学麦迪逊分校最新放出的长篇论文,从方法论创新、工程验证到理论诠释,给出了肯定的答案。

论文指出,如果把 Muon、SOAP、SPlus、Galore 等常见矩阵优化方法进行简化和抽象,它们本质上都是在一个被旋转后的坐标系中,使用 Adam 或者变体进行模型优化。它们先找到一个旋转矩阵 R,把梯度 G 旋转到新的坐标系下;用某个基座优化器 f 计算单步更新量;最后,将该更新量旋转回原来的坐标。这个过程可以写成:


论文提出将旋转最速下降提升到设计优化器的新原则, 从而可以考虑更一般的旋转 R,和更广泛的基座优化器 f。能不能让这两个部分有机地联动起来,去优化一个具体的训练效率指标,例如模型训练损失的下降速度?
论文提出:给定一般的基座优化器 f,我们可以近似地求解旋转 R,使旋转更新下的训练损失下降速率得以提升。于是,我们推导出 ARO 的更新规则:

(其中 M 是动量)
它的直觉很简单:ARO 是在拿上一轮旋转后的基座优化器更新量,寻找新的旋转去大概 “对齐” 原始的梯度动量。换句话说,ARO 在主动地去寻找一个能让当前优化器 f 发挥得更好的旋转角度。实验发现(图 1),用 ARO 的更新方向,比基于传统特征旋转的更新,能带来更优的瞬时损失下降率 —— 该优势在整个训练过程中持续存在。

优化器评估常面临一个痛点:在研究级场景下所得出的结论,很难迁移到实际场景。原因可能在于基准设置中的一些实验准则未与真实环境对齐,导致指导性有限。
对此,论文规定了一套实验准则:从混合精度选取、学习率衰减、非隐层优化器统一、到学习率迁移策略等环节都进行去偏控制;并尽可能采用大的 batch size(最高 1400 万)、长的序列长度(最高 4K),足够大的模型规模(最高 80 亿)和训练预算(最高 8 倍过训练),尽可能贴近真实训练场景;在可行的情况下对 AdamW 基线进行端到端调参,避免用外推法估算超参。在这种规范下,论文得出的加速率较为温和,但在跨尺度测试下却更加一致、更可迁移。
在以上原则下,评估分为两部分。


在主流的矩阵优化器实践策略中,它们通常只用在隐藏层上 ——embedding 和 LM head 等参数还得靠 AdamW 来管。这被称为 “混合 / 分治模式”。其中一个原因是当其被直接用到上述参数上,可能会导致训练显著变差,甚至不收敛。而 ARO 路线下一个新的 “副产物” 是:它可以在全模型参数上跑通。

论文在 Sigma-MoE-2B 里对比了几种设置:混合(ARO 只优化隐藏层)、全模型(ARO 优化所有矩阵参数)。结果表明(图 4),全模型模式的 ARO 在训练后期(3 倍 - 4 倍过训练之后)反而比混合模式效果更好。
这意味着 ARO 原则上能够从旋转的角度,统一地处理全模型的矩阵参数 —— 这也一定程度上挑战了当前矩阵优化器较为流行的 “分而治之” 的设计理念。
接下来,论文进一步探究更深层的问题:为什么旋转原则 “恰好” 隐藏在诸多矩阵优化器的设计中?论文的拓展讨论指向了一个概念:神经网络的参数对称性。
微软团队在此前的工作(SliceGPT)中提出过一个定理:Transformer 存在丰富的残差流对称性 —— 在特定约束下将参数同时旋转,模型的输出不变。这意味着参数空间中存在连续区域,其中所有点对应同一函数。
与传统优化器相比,ARO 在这片区域里多了一个可操作的自由度:论文证明,ARO 理论上等价于非欧几何下的对称瞬移(Symmetry Teleportation)—— 一类利用对称性信息加速收敛的经典算法。即,在不改变损失的前提下,ARO 将参数 “瞬移” 到群轨道中另一个更利于优化的位置,再迈出下一步。
论文进一步分析了 ARO 是如何利用这种自由度的。传统对称瞬移追求瞬时收敛速率的最大化,但这在实际当中并不总能取得实际收益。对此,论文主要理论证明了两个结论:1. 随机梯度下大幅提高瞬时速率可能会导致损失下降不稳定;2. 而 Muon/SOAP 等使用的特征旋转则是另一个极端,最大化稳定性但同时会削弱下降速率,取向于保守。ARO 的实现则采取了一种温和的部分提升策略,在提升下降率的同时维持稳定性,在收敛效率与鲁棒性之间取得了更好的权衡。
这个视角下,ARO 不再是单纯的矩阵运算技巧,而是利用架构固有对称性的自然产物。论文将这一观察一般化为 “对称性假设”:已知的矩阵优化器之所以有效,可能是无意中利用了损失景观中的对称性。
对称性视角不仅是对于优化的新诠释,也进一步为 ARO 解锁了 “新姿势”。例如:

回过头看,ARO 的贡献可以分为三部分:把 “旋转” 从既有优化器的隐含设计里提炼为第一原则;通过严格的规模化实验证明其有效性;用架构本身的全局性质为矩阵优化提供新的诠释,并衍生出新的耦合设计。如果说 Muon 优化器是从 “向量到矩阵的本质跨越”,那么 ARO 则指向一个新的可能:从 “矩阵优化” 走向 “全模型耦合优化”—— 优化器的设计,也许应该和架构绑得更紧一些。
文章来自于“机器之心”,作者 “机器之心”。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI