AI资讯新闻榜单内容搜索-算法

DeepMind再登Nature：AI Agent造出了最强RL算法！

当AI开始「自己学会学习」，人类的角色正在被重写。DeepMind最新研究DiscoRL，让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero，在从未见过的游戏中依旧稳定高效。

来自主题: AI技术研报

9227 点击 2025-10-28 14:56

让AI懂地理，它才会走得更远。GeoEvolve让AI从助理变成「地理学博士生」，自己修bug、改算法、进化模型——这下，科学家可能真的要有个AI同事了。MIT和斯坦福学者提出了GeoEvolve，尝试了这样一种探索：

来自主题: AI资讯

8497 点击 2025-10-28 13:34

为破解大模型长思维链的效率难题，并且为了更好的端到端加速落地，我们将思考早停与投机采样无缝融合，提出了 SpecExit 方法，利用轻量级草稿模型预测 “退出信号”，在避免额外探测开销的同时将思维链长度缩短 66%，vLLM 上推理端到端加速 2.5 倍。

来自主题: AI技术研报

7461 点击 2025-10-24 16:53

加州大学伯克利分校的研究团队提出了一种AI驱动的系统研究方法ADRS（AI-Driven Research for Systems），它可以通过“生成—评估—改进”的迭代循环，实现算法的持续优化。

来自主题: AI资讯

6516 点击 2025-10-24 16:52

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

来自主题: AI技术研报

4947 点击 2025-10-24 10:33

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

6057 点击 2025-10-23 11:41

UC Berkeley、UW、AI2 等机构联合团队最新工作提出：在恰当的训练范式下，强化学习（RL）不仅能「打磨」已有能力，更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA，并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

来自主题: AI技术研报

7281 点击 2025-10-22 11:33

AI助手Grok要全面接手X了！马斯克宣布：X（推特）将在未来几周内彻底移除启发式推荐算法，由Grok接手，通过阅读和观看全部内容来全自动匹配用户兴趣。

来自主题: AI资讯

7350 点击 2025-10-21 16:14

本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案，可以端到端优化真实的流策略，而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN，再用 GRU 门控和 Transformer Decoder 两套速度参数化。

来自主题: AI技术研报

7072 点击 2025-10-19 11:48

让智能体自己摸索新方法，还模仿自己的成功经验。腾讯优图实验室开源强化学习算法——SPEAR（Self-imitation with Progressive Exploration for Agentic Reinforcement Learning）。

来自主题: AI技术研报

7054 点击 2025-10-13 15:45