李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考 李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考 关键词: AI,李飞飞,RAGEN,强化学习框架 什么开源算法自称为DeepSeek-R1(-Zero) 框架的第一个复现? 来自主题: AI技术研报 6685 点击 2025-04-25 15:35