AI资讯新闻榜单内容搜索-奖励模型

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

将大语言模型（LLMs）与复杂的人类价值观对齐，仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习（RLHF）。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分，最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。

来自主题: AI技术研报

9221 点击 2025-07-03 10:00

北大腾讯突破奖励模型瓶颈！让AI理解人类偏好，泛化能力比肩GPT-4.1

总是“死记硬背”“知其然不知其所以然”？

来自主题: AI技术研报

6351 点击 2025-06-26 15:47

首个多模态统一CoT奖励模型来了，模型、数据集、训练脚本全开源

在多模态大模型快速发展的当下，如何精准评估其生成内容的质量，正成为多模态大模型与人类偏好对齐的核心挑战。然而，当前主流多模态奖励模型往往只能直接给出评分决策，或仅具备浅层推理能力，缺乏对复杂奖励任务的深入理解与解释能力，在高复杂度场景中常出现 “失真失准”。

来自主题: AI技术研报

10297 点击 2025-05-14 11:01

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。

来自主题: AI技术研报

8631 点击 2025-05-12 14:51

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

模型胡乱论证“1+1=3”，评测系统却浑然不觉甚至疯狂打Call？是时候给奖励模型打个分了！

来自主题: AI技术研报

8661 点击 2025-05-10 17:13

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用：

来自主题: AI技术研报

9349 点击 2025-05-09 11:51

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

随着 OpenAI o1 和 DeepSeek R1 的爆火，大语言模型（LLM）的推理能力增强和测试时扩展（TTS）受到广泛关注。然而，在复杂推理问题中，如何精准评估模型每一步回答的质量，仍然是一个亟待解决的难题。传统的过程奖励模型（PRM）虽能验证推理步骤，但受限于标量评分机制，难以捕捉深层逻辑错误，且其判别式建模方式限制了测试时的拓展能力。

来自主题: AI技术研报

8607 点击 2025-04-14 14:39

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练，以强化其指令跟随能力。受语言领域的启发，多模态偏好优化技术凭借其在数据效率和性能增益方面的优势，被广泛用于对齐人类偏好。目前，该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而，这一方法不仅资源消耗巨大，训练过程仍然极具挑战。

来自主题: AI技术研报

10697 点击 2025-04-08 14:18

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

DeepSeek新论文来了！在清华研究者共同发布的研究中，他们发现了奖励模型推理时Scaling的全新方法。DeepSeek R2，果然近了。

来自主题: AI技术研报

9078 点击 2025-04-05 01:14

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。

来自主题: AI技术研报

9467 点击 2025-04-03 09:58

AI资讯新闻榜单内容搜索-奖励模型

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

北大腾讯突破奖励模型瓶颈！让AI理解人类偏好，泛化能力比肩GPT-4.1

首个多模态统一CoT奖励模型来了，模型、数据集、训练脚本全开源

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题