AI资讯新闻榜单内容搜索-奖励模型

图像生成推理大模型，港中文北大等联手破解画质提升难题

图像生成模型，也用上思维链（CoT）了！此外，作者还提出了两种专门针对该任务的新型奖励模型——潜力评估奖励模型。（Potential Assessment Reward Model，PARM）及其增强版本PARM++。

来自主题: AI技术研报

5383 点击 2025-02-10 11:09

1/10训练数据超越GPT-4o！清华等提出隐式过程奖励模型PRIME，在线刷SOTA

1/10训练数据激发高级推理能力！近日，来自清华的研究者提出了PRIME，通过隐式奖励来进行过程强化，提高了语言模型的推理能力，超越了SFT以及蒸馏等方法。

来自主题: AI技术研报

3097 点击 2025-01-08 11:12

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

通过过程奖励模型（PRM）在每一步提供反馈，并使用过程优势验证器（PAV）来预测进展，从而优化基础策略，该方法在测试时搜索和在线强化学习中显示出比传统方法更高的准确性和计算效率，显著提升了解决复杂问题的能力。

来自主题: AI技术研报

5751 点击 2024-11-16 15:41

自一致性首选项优化SCPO，让LLM多次回答同一个问题，选输出频率最高的答案 |Meta最新

传统的训练方法通常依赖于大量人工标注的数据和外部奖励模型，这些方法往往受到成本、质量控制和泛化能力的限制。因此，如何减少对人工标注的依赖，并提高模型在复杂推理任务中的表现，成为了当前的主要挑战之一。

来自主题: AI技术研报

7271 点击 2024-11-14 14:42

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。

来自主题: AI技术研报

8902 点击 2024-07-31 16:05

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报

10063 点击 2024-05-26 13:45