AI资讯新闻榜单内容搜索-强化学习

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

来自斯坦福的研究者们最近发布的一篇论文（https://arxiv.org/abs/2509.01684）直指RL强化学习在机器学习工程（Machine Learning Engineering）领域的两个关键问题，并克服了它们，最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示（prompting）的、规模更大的静态语言模型Claude3.5。

来自主题: AI资讯

5288 点击 2025-09-06 11:35

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

无需海量数据标注，智能体也能精确识别定位目标元素了！来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法，可以让模型在没有标注的数据上自主提升GUI grounding（图形界面定位）能力。

来自主题: AI技术研报

6167 点击 2025-09-05 15:28

首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf：首个面向具身智能的“渲训推一体化”大规模强化学习框架。

来自主题: AI技术研报

4708 点击 2025-09-01 16:49

波士顿动力机器狗侧空翻炸场！穿轮滑鞋照样能翻

刚刚，风头被中国机器人盖过的波士顿动力，又整了个大活！前后空翻我还能理解，这侧空翻？（不是哥们，你真会啊！）他们先在仿真环境中进行强化学习，一旦策略出现问题，那么他们就将其部署在真机上进行测试，观察问题，然后反复测试迭代，加强Spot的稳定性。

来自主题: AI资讯

5249 点击 2025-08-29 14:00

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死

强化学习核心是什么？Karpathy一语道破——环境。全新开源Environments Hub横空出世，为强化学习训练带去革命性突破。

来自主题: AI资讯

5222 点击 2025-08-29 13:07

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

近期，多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理，数学推理也得到了一定提升。

来自主题: AI技术研报

7175 点击 2025-08-28 12:20

手把手教机器人：斯坦福大学提出RTR框架，让机械臂助力人形机器人真机训练

人形机器人的运动控制，正成为强化学习（RL）算法应用的下一个热点研究领域。当前，主流方案大多遵循 “仿真到现实”（Sim-to-Real）的范式。研究者们通过域随机化（Domain Randomization）技术，在成千上万个具有不同物理参数的仿真环境中训练通用控制模型，期望它能凭借强大的泛化能力，直接适应动力学特性未知的真实世界。

来自主题: AI技术研报

6264 点击 2025-08-27 11:05