训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密
训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密随着 MiniMax M2.5 的发布并在社区引发热烈反响,很高兴能借此机会,分享在模型训练背后关于 Agent RL 系统的一些思考。 在大规模、复杂的真实世界场景中跑 RL 时,始终面临一个核心难
随着 MiniMax M2.5 的发布并在社区引发热烈反响,很高兴能借此机会,分享在模型训练背后关于 Agent RL 系统的一些思考。 在大规模、复杂的真实世界场景中跑 RL 时,始终面临一个核心难
2024年11月,李可佳、吴俊东、张栖铭决定一起创业,做一款“帮助用户终身学习”的AI Agent。新公司被命名为Ouraca ,是“Our Academy”的缩写。
当大多数人还在测试它的单点逻辑推理能力时,敏锐的开发者已经发现了一个更具破坏力的玩法:将GLM-5的高密度思维模型注入到Anthropic最新推出的Claude Code Agent Teams架构中。
Cloudflare 宣布推出 Markdown for Agents。只要在 Agent 的请求设置里头加上一句——Accept: text/markdown。网站就会自动返回为 Agent 识别优化的 Markdown 文件,而不是为人类准备的 HTML 文件。
灵初智能选择了一条更为激进的技术路线:「人类中心(Human-Centric)」。他们自主研发了全球首个灵巧手真实世界数采引擎Psi-SynEngine。
先介绍一下今天的主角。Ring-2.5-1T,蚂蚁百灵团队刚发布的万亿参数开源思考模型,全球首个混合线性注意力架构的万亿级选手。IMO 2025 国际奥数 35/42 拿到金牌水平,CMO 2025 中国奥数 105 分远超国家集训队线 87 分,GAIA2 通用 Agent 评测开源 SOTA。数字很漂亮,但数字谁都会贴。
该事故目前已得到谷歌官方技术团队的确认,官方承认属于 “Systemic path-parsing failure ”“Catastrophic impact”“Have seen before”,正在紧急硬编码修复上线中(自 2 月 6 日回复起,截止目前,暂未有修复完成的正式通知)
在 AI 编程领域,大家似乎正处于一个认知错觉的顶点:随着 Coding Agents 独立完成任务的难度和范围逐渐增加,Coding 领域的 AGI 似乎就可以实现?
2026 马年注定迎来一个「AI 味」最浓的春节。
2026 开年至今,人工智能圈子最火的是一只小龙虾 Clawdbot 。