从打分器到思考者:RM-R1用推理重塑模型价值判断 从打分器到思考者:RM-R1用推理重塑模型价值判断 关键词: AI,RM-R1,模型训练,人工智能 「知其然,亦知其所以然。」 来自主题: AI技术研报 6642 点击 2025-05-31 15:48