AI资讯新闻榜单内容搜索-RL

真机RL！最强VLA模型π*0.6来了，机器人在办公室开起咖啡厅

本周，美国具身智能创业公司 Physical Intelligence（简称 PI 或 π）发布了旗下的最新机器人基础模型 π*0.6。PI 是一家总部位于旧金山的机器人与 AI 创业公司，其使命是将通用人工智能从数字世界带入物理世界：他们的首个机器人通用基础模型名为 π₀，让同一套软件控制多种物理平台执行各类任务。

来自主题: AI技术研报

9790 点击 2025-11-18 16:14

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

当我们谈论大型语言模型（LLM）的"强化学习"（RL）时，我们在谈论什么？从去年至今，RL可以说是当前AI领域最炙手可热的词汇。

来自主题: AI技术研报

10819 点击 2025-11-18 15:11

今天起，李飞飞 AI「造世神器」人人可用，一句话打造 3D 世界｜附实测体验

Marble，终于来了。没错，就是两个月前在 AI 圈刷屏的那个 3D 世界生成模型。就在刚刚，李飞飞旗下的 World Labs 公司官宣向全体用户开放，还一次性放出了一大波新功能。多模态生成：

来自主题: AI资讯

9083 点击 2025-11-13 10:37

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你：不用分阶段做强化学习、不搞课程学习、不动态调参，只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA，你信吗？

来自主题: AI技术研报

7018 点击 2025-11-13 09:37

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

9353 点击 2025-11-11 10:24

SimKO：缓解RLVR训练中的概率过度集中，优化pass@K性能

研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization)，显著优化了 pass@K（K=1 及 K>1）性能。同时，团队认为当前的用熵（Entropy）作为指标衡量多样性存在局限：熵无法具体反映概率分布的形态。如图 2（c）所示，两个具有相同熵值的分布，一个可能包含多个峰值，而另一个则可能高度集中于一个峰值。

来自主题: AI技术研报

7598 点击 2025-11-08 15:48