大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题 大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题 关键词: AI,RLVR,模型训练,人工智能 一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。 来自主题: AI技术研报 7904 点击 2025-04-03 09:58