
1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍
1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是,要求短推理时,甚至击败了GPT-4o——用的还是相同的token预算!
来自主题: AI技术研报
4723 点击 2025-03-10 10:22