AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

清华与蚂蚁联合开源AReaL-boba²,实现全异步强化学习训练系统,有效解耦模型生成与训练流程,GPU利用率大幅提升。14B模型在多个代码基准测试中达到SOTA,性能接近235B模型。异步RL训练上大分!

来自主题: AI技术研报
5130 点击    2025-06-05 16:30
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

无监督的熵最小化(EM)方法仅需一条未标注数据和约10步优化,就能显著提升大模型在推理任务上的表现,甚至超越依赖大量数据和复杂奖励机制的强化学习(RL)。EM通过优化模型的预测分布,增强其对正确答案的置信度,为大模型后训练提供了一种更高效简洁的新思路。

来自主题: AI技术研报
6418 点击    2025-06-05 11:43
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率?

来自主题: AI技术研报
6294 点击    2025-06-05 10:27
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

推理模型常常表现出类似自我反思的行为,但问题是——这些行为是否真的能有效探索新策略呢?

来自主题: AI技术研报
6920 点击    2025-06-02 17:48
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」

来自主题: AI技术研报
7217 点击    2025-06-02 15:24
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

数据枯竭正成为AI发展的新瓶颈!CMU团队提出革命性方案SRT:让LLM实现无需人类标注的自我进化!SRT初期就能迭代提升数学与推理能力,甚至性能逼近传统强化学习的效果,揭示了其颠覆性潜力。

来自主题: AI技术研报
6245 点击    2025-06-02 14:16
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

来和机器狗一起运动不?你的羽毛球搭子来了!无需人工协助,仅靠强化学习,机器狗子就学会了羽毛球哐哐对打。基于强化学习,研究人员开发了机器狗的全身视觉运动控制策略,同步控制腿部(18个自由度)移动,和手臂挥拍动作。

来自主题: AI技术研报
8356 点击    2025-05-30 17:08