首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源 首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源 关键词: AI,模型训练,人工智能,UnifiedReward-Think 在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。 来自主题: AI技术研报 8924 点击 2025-05-14 11:01