田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理 田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理 关键词: AI,ColBench,SWEET-RL,模型训练 强化学习提升了 LLM 各方面的能力,而强化学习本身也在进化。 来自主题: AI技术研报 6804 点击 2025-03-28 10:09