AI资讯新闻榜单内容搜索-奖励模型

奖励模型变天！0.005%参数量推理速度翻倍，性能还更强

最新奖励模型SWIFT直接利用模型生成过程中的隐藏状态，参数规模极小，仅占传统模型的不到0.005%。SWIFT在多个基准测试中表现优异，推理速度提升1.7×–6.7×，且在对齐评估中稳定可靠，展现出高效、通用的奖励建模新范式。

来自主题: AI技术研报

6393 点击 2026-01-23 15:17

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

9971 点击 2025-10-23 12:28

OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首

OpenAI重磅结构调整：ChatGPT「模型行为」团队并入Post-Training，前负责人Joanne Jang负责新成立的OAI Labs。而背后原因，可能是他们最近的新发现：评测在奖励模型「幻觉」，模型被逼成「应试选手」。一次组织重组+评测范式重构，也许正在改写AI的能力边界与产品形态。

来自主题: AI技术研报

9261 点击 2025-09-07 12:20

ACL 2025｜驱动LLM强大的过程级奖励模型（PRMs）正遭遇「信任危机」？

近年来，大型语言模型（LLMs）在复杂推理任务中展现出惊人的能力，这在很大程度上得益于过程级奖励模型（PRMs）的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键「幕后功臣」，负责评估推理过程的每一步，以引导模型的学习方向。

来自主题: AI技术研报

7581 点击 2025-07-28 10:49

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

来自主题: AI技术研报

8295 点击 2025-07-12 11:58

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式，可以说，已成为AI迈向AGI进程中的关键技术节点。然而，其中奖励模型的设计与训练，始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

来自主题: AI技术研报

7534 点击 2025-07-12 11:51

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

最近，一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。

来自主题: AI技术研报

7339 点击 2025-07-11 16:30

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

Skywork-Reward-V2全新发布！巧妙构建超高质量的千万级人类偏好样本，刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数，小体积也能媲美大模型性能。

来自主题: AI技术研报

7901 点击 2025-07-05 14:00

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

8170 点击 2025-07-05 12:10

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

8478 点击 2025-07-04 09:44