LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式
LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!
搜索
在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!
2026年出海:靠“陪聊AI”活着的公司都在死去,这几家企业凭什么翻倍暴涨?
估值飙至200亿美元。
上次 Ribbi 刚开始内测的时候,好友 Joanna 就给了我邀请,东忙西忙没来得及体验,这两天玩上了,也是感受到了这个小青蛙的魅力了。
Meta被曝全天候录屏监控员工操作训练AI智能体,8000人裁员同步推进——你亲手教会的AI,可能正在取代你。
大厂福利变迁史,也是一部生产力进化史。
站在这个深度融合的转折点,我们不再空泛地讨论“AI能否改变世界”,而是需要通过客观数据丈量“它正在如何重塑每一寸现实”。《季载录·春丨Xsignal全球AI应用行业季度报告丨2026》应运而生,以真实的周期切片,记录这一历史性的重构时刻。
今天,多位开发者在DeepSeek官方交流群和社交媒体上反馈,DeepSeek官方API所调用的模型能力出现了变化,已拥有一百万的上下文窗口,而不是此前的128k,知识截止日期更新为2025年5月,而不是此前的2024年。
月之暗面昨天发布了 Kimi K2.6,代码能力和 Agent 能力都有明显增强。官方数据很亮眼:13 小时不间断编码、4000 行代码重构、LMArena 全球开源第一。
贝索斯的AI创企估值将达到380亿美元。