LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式
LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!
来自主题: AI技术研报
5486 点击 2026-04-23 14:05