正交化之外是什么?微软等提出ARO优化器:训练提速1/3,揭示矩阵优化新「蓝海」
正交化之外是什么?微软等提出ARO优化器:训练提速1/3,揭示矩阵优化新「蓝海」如果你在过去一年关注过大模型训练的技术,大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器,被视为是可能挑战 Adam 的新秀。它的思路很直接:对动量矩阵进行正交化,让各个奇异方向上的更新速率一致,提升训练效率。
如果你在过去一年关注过大模型训练的技术,大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器,被视为是可能挑战 Adam 的新秀。它的思路很直接:对动量矩阵进行正交化,让各个奇异方向上的更新速率一致,提升训练效率。
在大公司一路高歌猛进的 AI 浪潮里,小创业者和高校研究者正变得越来越迷茫。就连前段时间谷歌创始人谢尔盖・布林回斯坦福,都要回答「大学该何去何从」「从学术到产业的传统路径是否依然重要」这类问题。
提起马卡龙,你会想到什么?是橱窗里的精致甜点,一种“少女心”的味觉象征?还是代表了温柔优雅的时尚配色?当一个AI产品也被命名为“马卡龙”,这份联想便悄然发生了偏移:从舌尖的甜,转向科技的未知,却又奇妙地保留了那一份色彩与气质。
最近刷到了 Macaron 发布的一条技术视频。
2025年,AI大模型的竞争焦点正在发生根本性转移。
“这个世界上或许不需要再多一个能帮你生成报告和PPT的工具,但需要一个真正关心你生活的存在”。Macaron AI创始人&CEO陈锴杰说道。
2025年11月,印度国会议员、前外交部国务部长沙希·塔鲁尔(Shashi Tharoor)在《印度教徒报》发表了一篇颇具影响力的专栏文章。文章中,他以“十字路口”为喻,描绘了印度IT产业的集体焦虑。
总部位于旧金山的初创公司 Deep Cogito 发布了其最新一代旗舰模型 Cogito v2.1 671B。公司 CEO Drishan Arora 在社交平台 X 上豪情万丈地宣布:“今天,我们发布了由美国公司制造的最好的开源大语言模型。”
大语言模型(LLMs)推理能力近年来快速提升,但传统方法依赖大量昂贵的人工标注思维链。中国科学院计算所团队提出新框架PARO,通过让模型学习固定推理模式自动生成思维链,只需大模型标注1/10数据就能达到全量人工标注的性能。这种方法特别适合像金融、审计这样规则清晰的领域,为高效推理监督提供了全新思路。
500 万用户、八位数年经常性收入、日均新增 2 万用户——对于 2024 年初由两名 20 岁大学生 Rudy Arora 与 Sarthak Dhawan 创办的初创公司 Turbo AI 而言,这些数据堪称亮眼。对于刚达到法定饮酒年龄(美国为 21 岁)的年轻人来说,这样的成绩更显不可思议。