复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

7518点击 2025-10-06 13:22

近年来，以强化学习为核心的训练方法显著提升了大语言模型（Large Language Models, LLMs）的推理能力与对齐性能，尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述，但其涵盖范围较为有限，未能全面总结强化学习在 LLMs 全生命周期中的作用机制。

对此，来自复旦大学、同济大学、兰卡斯特大学以及香港中文大学 MM Lab 等顶尖科研机构的研究者们全面总结了大语言模型全生命周期的最新强化学习研究，完成题为 “Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle” 的长文综述，系统性回顾了领域最新进展，深入探讨研究挑战并展望未来发展方向。

论文标题： Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle

论文链接：https://arxiv.org/pdf/2509.16679

作者综述了强化学习赋能大语言模型的理论与实践进展，详细阐述了强化学习在大语言模型全生命周期各阶段的应用策略，包括预训练、对齐微调与强化推理并整理了当前用于强化学习微调的现有数据集与评估基准以及现有的主流开源工具与训练框架，为后续研究提供清晰的实践参考。该综述还详细分析了强化学习增强型大语言模型领域未来面临的挑战与发展趋势，旨在为研究人员与从业者呈现强化学习与大语言模型交叉领域的最新进展及前沿趋势，以期推动更智能、更具泛化能力且更安全的大语言模型的发展。

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

图 1：强化学习增强型大语言模型的核心组件概览。该图展示了强化学习增强型大语言模型生命周期内的核心组件及其交互关系。在强化学习框架与工具包的驱动下，强化学习算法参与大语言模型的预训练、对齐及推理增强训练，并通过测试基准进行验证。

该综述深入剖析了强化学习技术如何应用于大语言模型的全生命周期阶段，如何贯穿 LLMs 的预训练、对齐和强化推理全过程。文章总结了强化学习应用于大语言模型的具体方法和技术细节，为未来强化学习与 LLMs 的深度融合提供了经验，以此探索未来的研究机遇与发展路径。基于所综述内容，作者提出了首个 RL 在 LLMs 全生命周期的运作方法的分类总览图：

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

图 2：强化学习增强型大语言模型的分类体系总览图。该图呈现了构建强化学习增强型大语言模型所涉及的关键阶段与资源的分类体系，共分为五个分支：预训练、对齐、基于可验证奖励的强化学习、数据集与基准测试、开源框架。此分类体系明确了各阶段之间的关联，可作为理解该综述所探讨的方法进展与相关资源的参考框架。

作者将基于可验证奖励的强化学习技术 (Reinforcement Learning with Verifiable Rewards, RLVR) 作为该综述的关注重点，系统性地梳理了自 OpenAI-o1 与 DeepSeek-R1 发布以来强化学习赋能大语言模型以及多模态大语言模型推理能力上的应用研究，总结了如何通过提供可验证的奖励信号提升模型推理的稳定性和准确性。通过引入可自动验证的奖励机制，RLVR 不仅优化了推理过程，还增强了模型对复杂任务的适应能力。该综述对 RLVR 进行了详细探讨，展示了其在数学推理、编程任务等领域的应用效果。

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

图 3：RLVR 方法的技术架构图。该架构图展示了 RLVR 的整体工作流程，并详细阐述了奖励模型、离线策略辅助、奖励过滤、采样与推理策略、智能体强化学习以及奖励更新层级的设计方法。

该综述主要有三大特有贡献：

全生命周期梳理：系统涵盖了强化学习在大语言模型中的完整应用生命周期，详细阐述了从预训练、对齐到推理强化的各阶段流程。在此过程中，该文章明确了每个阶段的目标、方法及面临的挑战。

聚焦先进 RLVR 技术：重点介绍了基于可验证奖励的强化学习领域的前沿方法。该文章深入分析了 RLVR 的实验现象与尖端应用，探究了用于确保奖励具备客观性与可验证性的相关方法。

整合关键研究资源：总结了对大语言模型中强化学习相关实验、评估及实际落地至关重要的数据集、基准测试与开源框架。通过整合这些信息，该文章为未来希望在 LLMs 场景下探索 RL 的研究人员提供了极具价值的参考资源。

强化学习在大语言模型上的应用，标志着大模型发展的一次重要转折。然而当前强化学习在大语言模型全生命周期中的应用依然面临的挑战。作者指出，尽管强化学习在提升 LLM 的对齐和推理能力方面取得了显著进展，但在系统规模的可扩展性和训练稳定性方面仍存在很大的挑战。大规模 RL 训练对于 LLM 来说依然是计算密集型的，并且往往不稳定。

此外，奖励设计和信用分配的问题也是当前 RL 应用中的难点，尤其是在长时间推理过程中，奖励延迟的问题给模型的学习带来了不小的困难。理论层面，当前缺乏清晰的理论框架来分析 RL 在 LLM 训练中的泛化能力和稳定性，这使得对 RL 的有效性和潜在风险的理解仍然不充分。在应用层面，将RL与基于LLM的智能体和工具使用相结合，也面临着效率、安全性和可控性等挑战。因此，文章强调了在数据集和评估基准建设方面的不足，当前大多数研究仍依赖特定任务的数据集，缺乏统一的标准化基准，这为强化学习微调方法的比较和验证带来了困难。

该综述形成了一份基于生命周期的综合分析，既突出了方法层面的进展，也涵盖了配套支持资源，并结合领域技术趋势和工程实践需求分析了现有挑战和未来方向，可作为强化学习增强型大语言模型领域研究者的前沿参考资料，欢迎感兴趣的读者阅读、讨论和引用该论文：

@misc{liu2025reinforcementlearningmeetslarge,

title={Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle}, 

author={Keliang Liu and Dingkang Yang and Ziyun Qian and Weijie Yin and Yuchi Wang and Hongsheng Li and Jun Liu and Peng Zhai and Yang Liu and Lihua Zhang},

year={2025},

eprint={2509.16679},

archivePrefix={arXiv},

primaryClass={cs.CL},

url={https://arxiv.org/abs/2509.16679}, 

}

文章来自于微信公众号“机器之心”。

关键词: AI , 模型训练 , 强化学习 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner