3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成
3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成Time-R1通过三阶段强化学习提升模型的时间推理能力,其核心是动态奖励机制,根据任务难度和训练进程调整奖励,引导模型逐步提升性能,最终使3B小模型实现全面时间推理能力,超越671B模型。
来自主题: AI技术研报
7740 点击 2025-06-09 15:54
搜索
Time-R1通过三阶段强化学习提升模型的时间推理能力,其核心是动态奖励机制,根据任务难度和训练进程调整奖励,引导模型逐步提升性能,最终使3B小模型实现全面时间推理能力,超越671B模型。