AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

AlphaStar等证明强化学习在游戏等复杂任务上,表现出色,远超职业选手!那强化学习怎么突然就不行了呢?强化学习到底是怎么走上歧路的?

来自主题: AI技术研报
5863 点击    2025-08-05 13:46
ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

一句话概括,原来强化学习的“捷径”是天生的,智能体能去的地方(流形)被动作维度(低维流形)限制得死死的,根本没机会去那些没用的高维空间瞎逛。

来自主题: AI资讯
5202 点击    2025-08-05 11:59
图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

不知道大家是否还记得,人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton,在一个多月前的演讲。 Sutton 认为,LLM 现在学习人类数据的知识已经接近极限,依靠「模仿人类」很难再有创新。

来自主题: AI技术研报
6890 点击    2025-08-04 12:25
多模态后训练反常识:长思维链SFT和RL的协同困境

多模态后训练反常识:长思维链SFT和RL的协同困境

多模态后训练反常识:长思维链SFT和RL的协同困境

在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常能实现叠加提升。

来自主题: AI技术研报
6148 点击    2025-08-02 12:49
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

近期,随着OpenAI-o1/o3和Deepseek-R1的成功,基于强化学习的微调方法(R1-Style)在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现,但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报
6503 点击    2025-08-01 16:08
当提示词优化器学会进化,竟能胜过强化学习

当提示词优化器学会进化,竟能胜过强化学习

当提示词优化器学会进化,竟能胜过强化学习

仅靠提示词优化就能超越 DeepSeek 开发的 GRPO 强化学习算法? 是的,你没有看错。近日上线 arXiv 的一篇论文正是凭此吸引了无数眼球。

来自主题: AI技术研报
5897 点击    2025-08-01 11:42
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报
4329 点击    2025-07-31 10:10
“伯克利四子”罕见同台,我们整理了WAIC最豪华具身论坛

“伯克利四子”罕见同台,我们整理了WAIC最豪华具身论坛

“伯克利四子”罕见同台,我们整理了WAIC最豪华具身论坛

陈建宇(星动纪元创始人)、高阳(千寻智能联合创始人)、吴翼(蚂蚁集团强化学习实验室首席科学家)、许华哲(星海图联合创始人)的分享(题图从左至右),基本代表了国内具身智能领域最先进的成果展示。

来自主题: AI资讯
8411 点击    2025-07-28 10:42
首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

新一代大型推理模型,如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5,在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法,即采用可验证奖励强化学习(RLVR)逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报
5287 点击    2025-07-28 10:36