AI资讯新闻榜单内容搜索-RL

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: RL

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

6628 点击 2025-08-13 16:03

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

在今年三月份，清华 AIR 和字节联合 SIA Lab 发布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。

来自主题: AI技术研报

7280 点击 2025-08-13 11:27

李飞飞押注的「世界模型」，中国自研Matrix-3D已抢先实现了？

李飞飞押注的「世界模型」，中国自研Matrix-3D已抢先实现了？

李飞飞押注的「世界模型」，中国自研Matrix-3D已抢先实现了？

中国自研世界模型Matrix-3D只需单张图就能生成可自由探索的3D世界，不仅效果对标李飞飞的World Labs，而且还能实现更大范围的探索空间，率先进入AI理解世界的前沿领域。

来自主题: AI资讯

6779 点击 2025-08-12 15:36

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

硅星人独家了解到，星海图即将开源全球首个开放场景高质量真机数据集Galaxea Open-World Dataset，及其G0-快慢双系统全身智能VLA模型。这一举动无疑在相对各自为战的机器人行业打开了一条新的路径。

来自主题: AI资讯

9709 点击 2025-08-11 14:05

告别数据标注！SQLM让大模型自我博弈，RL自主推理新范式！

告别数据标注！SQLM让大模型自我博弈，RL自主推理新范式！

告别数据标注！SQLM让大模型自我博弈，RL自主推理新范式！

一句话概括，本文探索了语言模型的终极内卷模式：不再依赖人类投喂，通过“自问自答”的左右互搏，硬生生把自己逼成了学霸。AlphaGo下棋我懂，这大模型自己给自己出数学题做就有点离谱了，堪称AI界的“闭关修炼”，出关即无敌。

来自主题: AI资讯

8157 点击 2025-08-10 14:29

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报

6549 点击 2025-08-10 13:29

独家｜陈天桥布局端到端Deep Research生态赛道，MiroMind发布全栈开源深度研究项目ODR

独家｜陈天桥布局端到端Deep Research生态赛道，MiroMind发布全栈开源深度研究项目ODR

独家｜陈天桥布局端到端Deep Research生态赛道，MiroMind发布全栈开源深度研究项目ODR

全栈开源生态系统：涵盖Agent框架（MiroFlow）、模型（MiroThinker）、数据（MiroVerse）和训练基础设施（MiroTrain / MiroRL）的全栈开源方案，所有组件和流程均开放共享，便于学习、复用与二次开发。

来自主题: AI资讯

7354 点击 2025-08-09 17:11

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

强化学习（RL）范式虽然显著提升了大语言模型（LLM）在复杂任务中的表现，但其在实际应用中仍面临传统RL框架下固有的探索难题。

来自主题: AI资讯

7345 点击 2025-08-08 11:06

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习+任意一张牌，往往就是王炸。专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

来自主题: AI资讯

7194 点击 2025-08-08 10:53

Meta华人新秀毕树超，重磅爆料下一代LLM路线！RL+预训练直通AGI

Meta华人新秀毕树超，重磅爆料下一代LLM路线！RL+预训练直通AGI

Meta华人新秀毕树超，重磅爆料下一代LLM路线！RL+预训练直通AGI

OpenAI前研究员、Meta「AI梦之队员」毕书超在哥大指出：AGI就在眼前，突破需高质数据、好奇驱动探索与高效算法；Scaling Law依旧有效，规模决定智能，终身学习才是重点。

来自主题: AI资讯

6874 点击 2025-08-05 12:58

上一页当前第10页,共38页下一页