AI资讯新闻榜单内容搜索-RL

混元3D世界模型1.0 lite版本发布，消费级显卡就能跑

只需要一句话或一张图片，就能生成360度全景3D世界。

来自主题: AI资讯

6143 点击 2025-08-16 17:47

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来，AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现，可验证强化学习（RLVR）技术展现出强大的性能提升潜力。

来自主题: AI技术研报

6248 点击 2025-08-16 16:45

被曝蒸馏DeepSeek还造假！欧版OpenAI塌房了

网友在推特上爆料，一位Mistral离职女员工群发邮件，直指公司多项黑幕。其中最劲爆的就是：Mistral最新模型疑似直接蒸馏自DeepSeek，却对外包装成RL成功案例，并刻意歪曲基准测试结果。

来自主题: AI资讯

8244 点击 2025-08-15 00:07

港大联手月之暗面等开源OpenCUA：人人可造专属电脑智能体

刚刚，一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv，其中提出了一个用于构建和扩展 CUA（使用计算机的智能体）的完全开源的框架。使用该框架，他们还构建了一个旗舰模型 OpenCUA-32B，其在 OSWorld-Verified 上达到了 34.8% 的成功率，创下了新的开源 SOTA，甚至在这个基准测试中超越了 GPT-4o。

来自主题: AI技术研报

8259 点击 2025-08-14 09:39

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报

7190 点击 2025-08-13 16:29

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

5938 点击 2025-08-13 16:03

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

在今年三月份，清华 AIR 和字节联合 SIA Lab 发布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。

来自主题: AI技术研报

6558 点击 2025-08-13 11:27

李飞飞押注的「世界模型」，中国自研Matrix-3D已抢先实现了？

中国自研世界模型Matrix-3D只需单张图就能生成可自由探索的3D世界，不仅效果对标李飞飞的World Labs，而且还能实现更大范围的探索空间，率先进入AI理解世界的前沿领域。

来自主题: AI资讯

5896 点击 2025-08-12 15:36

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

硅星人独家了解到，星海图即将开源全球首个开放场景高质量真机数据集Galaxea Open-World Dataset，及其G0-快慢双系统全身智能VLA模型。这一举动无疑在相对各自为战的机器人行业打开了一条新的路径。

来自主题: AI资讯

8924 点击 2025-08-11 14:05

告别数据标注！SQLM让大模型自我博弈，RL自主推理新范式！

一句话概括，本文探索了语言模型的终极内卷模式：不再依赖人类投喂，通过“自问自答”的左右互搏，硬生生把自己逼成了学霸。AlphaGo下棋我懂，这大模型自己给自己出数学题做就有点离谱了，堪称AI界的“闭关修炼”，出关即无敌。

来自主题: AI资讯

7593 点击 2025-08-10 14:29