
大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。
近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。
当前训练强大的大语言模型(LLM),就像是培养一个顶尖运动员,需要大量的、由专家(人类标注员)精心设计的训练计划和教材(高质量的标注数据)。
在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。
近期,Match Group 披露了 2025 年 Q2 财报,收入 8.46 亿美元,同比持平,但付费人数仅 1.41 亿(下滑 5%),相比巅峰期(2022 Q3)少了 2455 万。Dating App 作为最吸金的非游品类,头部公司财务数据近两年一路向下,且到目前为止看不到扭转的迹象。
在最近的技术报告中,苹果公司提供了更多关于 iOS 26 新的苹果人工智能基础模型(Apple Intelligence Foundation Models)的性能和特性的详细信息,该模型是在最近的 2025 年全球开发者大会(WWDC)上宣布的。
最近往返中美频繁发声的黄仁勋,是把英伟达打造成 4 万亿帝国的「AI教父」,今天 The Information 曝光了一个老黄布局多年的秘密。
智东西8月6日消息,据外媒The Information报道,知情人士透露,AI视频初创企业Runway正与投资者洽谈约5亿美元(约合人民币36亿元)的融资,投前估值不低于50亿美元(约合人民币359亿元),较上一轮融资时的估值30亿美元(约合人民币215亿元)高出67%。
2025年初在硅谷创立 Ouraca Inc.,专注打造新一代“AI native” 的终身学习产品线。首款产品 Aibrary正式版即将上线:是全球首个专为个人成长打造的 Agentic AI,它不仅帮助你获取知识,更陪你思考,激发动机,引导行动,让成长真正发生。通过个性化播客、认知引导与行动建议,Aibrary 将书籍与专家洞见转化为你专属的学习旅程。
近年来,大语言模型(LLM)在语言理解、生成和泛化方面取得了突破性进展,并广泛应用于各种文本任务。随着研究的深入,人们开始关注将 LLM 的能力扩展至非文本模态,例如图像、音频、视频、图结构、推荐系统等。
The Information 消息,被 Cognition 收购的 Windsurf 约 200 名员工,最近收到了新公司的邮件,要么接受新公司的 996 的工作条件,要么选择接受 9 个月的补偿买断方案。