AI资讯新闻榜单内容搜索-模型训练

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

前些天，OpenAI 少见地 Open 了一回，发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b。

来自主题: AI资讯

5898 点击 2025-08-13 18:19

AI顶会模式出了问题？「不发表，就出局」的恶性循环，正在压垮整个AI学界

相信我们的读者都对 AI 顶会有非常大的关注和热情，有的读者最近可能刚从 NeurIPS rebuttal 脱身，又开始为下一篇做准备了。作为推动技术革新与思想碰撞的核心引擎，顶级学术会议不仅是整个学界的生命线，更是我们洞察未来的前沿阵地。

来自主题: AI技术研报

5766 点击 2025-08-13 16:41

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报

7188 点击 2025-08-13 16:29

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

GUI 智能体正以前所未有的速度崛起，有望彻底改变人机交互的方式。然而，这一领域的进展正面临瓶颈：现有数据集大多聚焦于 10 步以内的短程交互，且仅验证最终结果，无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。

来自主题: AI资讯

6735 点击 2025-08-13 16:17

大模型训练新突破！“不对称”训练让AI学会自我反思，推理零开销

首次实现“训练-推理不对称”，字节团队提出全新的语言模型训练方法：Post-Completion Learning (PCL)。在训练时让模型对自己的输出结果进行反思和评估，推理时却仅输出答案，将反思能力完全内化。

来自主题: AI资讯

6242 点击 2025-08-13 16:10

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

5938 点击 2025-08-13 16:03