用编程大模型登顶开源第一后,智谱GLM团队被拷问了3小时
用编程大模型登顶开源第一后,智谱GLM团队被拷问了3小时真是越到年底,越是神仙打架。
来自主题: AI资讯
7431 点击 2025-12-25 10:52
真是越到年底,越是神仙打架。
继轻量级强化学习(RL)框架 slime 在社区中悄然流行并支持了包括 GLM-4.6 在内的大量 Post-training 流水线与 MoE 训练任务之后,LMSYS 团队正式推出 Miles——一个专为企业级大规模 MoE 训练及生产环境工作负载设计的强化学习框架。
开源框架实现100%可复现的稳定RL训练!下图是基于Qwen3-8B进行的重复实验。两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障。这就是SGLang团队联合slime团队的最新开源成果。