AI资讯新闻榜单内容搜索-post-train

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

继轻量级强化学习（RL）框架 slime 在社区中悄然流行并支持了包括 GLM-4.6 在内的大量 Post-training 流水线与 MoE 训练任务之后，LMSYS 团队正式推出 Miles——一个专为企业级大规模 MoE 训练及生产环境工作负载设计的强化学习框架。

来自主题: AI资讯

7589 点击 2025-11-20 15:26

真正的AI竞争力，藏在大模型“后训练”这一步

当全球的目光还在聚焦基座模型的参数竞赛时，一场更为深刻的变革正在悄然发生——后训练（Post-Training）。

来自主题: AI技术研报

7845 点击 2025-10-14 10:16

听说，大家都在梭后训练？最佳指南来了

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随；监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

来自主题: AI技术研报

6826 点击 2025-10-12 14:59

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

来自MIT Improbable AI Lab的研究者们最近发表了一篇题为《RL's Razor: Why Online Reinforcement Learning Forgets Less》的论文，系统性地回答了这个问题，他们不仅通过大量实验证实了这一现象，更进一步提出了一个简洁而深刻的解释，并将其命名为 “RL's Razor”（RL的剃刀）。

来自主题: AI技术研报

6781 点击 2025-09-18 14:26

OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首

OpenAI重磅结构调整：ChatGPT「模型行为」团队并入Post-Training，前负责人Joanne Jang负责新成立的OAI Labs。而背后原因，可能是他们最近的新发现：评测在奖励模型「幻觉」，模型被逼成「应试选手」。一次组织重组+评测范式重构，也许正在改写AI的能力边界与产品形态。

来自主题: AI技术研报

8989 点击 2025-09-07 12:20

大模型竞赛转向：决胜关键为何是“后训练”？

随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透，AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练（Post-training），正从过去锦上添花的“调优”环节，演变为决定模型最终价值的“主战场”。

来自主题: AI技术研报

7705 点击 2025-07-20 12:30

刷新复杂Agent推理记录！阿里通义开源网络智能体超越DeepSeek R1，Grok-3

在互联网信息检索任务中，即使是很强的LLM，有时也会陷入“信息迷雾”之中：当问题简单、路径明确时，模型往往能利用记忆或一两次搜索就找到答案；但面对高度不确定、线索模糊的问题，模型就很难做对。

来自主题: AI技术研报

7518 点击 2025-07-08 11:05

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

10666 点击 2025-03-31 15:07

上海AI Lab最新推出Mixture-of-Memories：线性注意力也有稀疏记忆了

回顾 AGI 的爆发，从最初的 pre-training (model/data) scaling，到 post-training (SFT/RLHF) scaling，再到 reasoning (RL) scaling，找到正确的 scaling 维度始终是问题的本质。

来自主题: AI技术研报

5670 点击 2025-03-06 09:46

Atom Capital：中美AI最前沿——创投新趋势、中美竞争与初创企业出海战略

2024又是AI精彩纷呈的一年。LLM不再是AI舞台上唯一的主角。随着预训练技术遭遇瓶颈，GPT-5迟迟未能问世，从业者开始从不同角度寻找突破。以o1为标志，大模型正式迈入“Post-Training”时代；开源发展迅猛，Llama 3.1首次击败闭源模型；中国本土大模型DeepSeek V3，在GPT-4o发布仅7个月后，用 1/10算力实现了几乎同等水平。

来自主题: AI资讯

9169 点击 2025-01-19 10:38