北大腾讯突破奖励模型瓶颈!让AI理解人类偏好,泛化能力比肩GPT-4.1 北大腾讯突破奖励模型瓶颈!让AI理解人类偏好,泛化能力比肩GPT-4.1 关键词: AI,模型训练,RewardAnything,人工智能 总是“死记硬背”“知其然不知其所以然”? 来自主题: AI技术研报 4497 点击 2025-06-26 15:47