AI资讯新闻榜单内容搜索-RL

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

继轻量级强化学习（RL）框架 slime 在社区中悄然流行并支持了包括 GLM-4.6 在内的大量 Post-training 流水线与 MoE 训练任务之后，LMSYS 团队正式推出 Miles——一个专为企业级大规模 MoE 训练及生产环境工作负载设计的强化学习框架。

来自主题: AI资讯

7844 点击 2025-11-20 15:26

如视发布空间大模型Argus1.0，支持全景图等多元输入，行业首创！

近来，世界模型（World Model）很火。多个 AI 实验室纷纷展示出令人惊艳的 Demo：仅凭一张图片甚至一段文字，就能生成一个可交互、可探索的 3D 世界。这些演示当然很是炫酷，它们展现了 AI 强大的生成能力。

来自主题: AI资讯

681 点击 2025-11-19 20:06

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

人类高级视觉皮层在个体间存在显著的功能差异，而构建大脑编码模型（brain encoding models）—— 即能够从视觉刺激（如图像）预测人脑神经响应的计算模型 —— 是理解人类视觉系统如何表征世界的关键。传统视觉编码模型通常需要为每个新被试采集大量数据（数千张图像对应的脑活动），成本高昂且难以推广。

来自主题: AI技术研报

9902 点击 2025-11-19 15:21

ConsistEdit来了：无需训练，实现高精度、高一致性的视觉编辑新范式

无需额外训练即可适配预训练生成模型的编辑方法，凭借灵活、高效的特性，已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制（如 Prompt-to-Prompt、MasaCtrl）实现文本引导编辑，但当前技术存在两大核心痛点，严重限制其在复杂场景的应用

来自主题: AI技术研报

9559 点击 2025-11-19 15:19

真机RL！最强VLA模型π*0.6来了，机器人在办公室开起咖啡厅

本周，美国具身智能创业公司 Physical Intelligence（简称 PI 或 π）发布了旗下的最新机器人基础模型 π*0.6。PI 是一家总部位于旧金山的机器人与 AI 创业公司，其使命是将通用人工智能从数字世界带入物理世界：他们的首个机器人通用基础模型名为 π₀，让同一套软件控制多种物理平台执行各类任务。

来自主题: AI技术研报

8759 点击 2025-11-18 16:14

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

当我们谈论大型语言模型（LLM）的"强化学习"（RL）时，我们在谈论什么？从去年至今，RL可以说是当前AI领域最炙手可热的词汇。

来自主题: AI技术研报

9576 点击 2025-11-18 15:11

今天起，李飞飞 AI「造世神器」人人可用，一句话打造 3D 世界｜附实测体验

Marble，终于来了。没错，就是两个月前在 AI 圈刷屏的那个 3D 世界生成模型。就在刚刚，李飞飞旗下的 World Labs 公司官宣向全体用户开放，还一次性放出了一大波新功能。多模态生成：

来自主题: AI资讯

8142 点击 2025-11-13 10:37

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你：不用分阶段做强化学习、不搞课程学习、不动态调参，只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA，你信吗？

来自主题: AI技术研报

6273 点击 2025-11-13 09:37

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

8345 点击 2025-11-11 10:24

SimKO：缓解RLVR训练中的概率过度集中，优化pass@K性能

研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization)，显著优化了 pass@K（K=1 及 K>1）性能。同时，团队认为当前的用熵（Entropy）作为指标衡量多样性存在局限：熵无法具体反映概率分布的形态。如图 2（c）所示，两个具有相同熵值的分布，一个可能包含多个峰值，而另一个则可能高度集中于一个峰值。

来自主题: AI技术研报

6805 点击 2025-11-08 15:48

AI资讯新闻榜单内容搜索-RL

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

如视发布空间大模型Argus1.0，支持全景图等多元输入，行业首创！

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

ConsistEdit来了：无需训练，实现高精度、高一致性的视觉编辑新范式

真机RL！最强VLA模型π*0.6来了，机器人在办公室开起咖啡厅

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

今天起，李飞飞 AI「造世神器」人人可用，一句话打造 3D 世界 ｜ 附实测体验

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

SimKO：缓解RLVR训练中的概率过度集中，优化pass@K性能

今天起，李飞飞 AI「造世神器」人人可用，一句话打造 3D 世界｜附实测体验