AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。

来自主题: AI技术研报
4975 点击    2025-09-23 10:07
美团王兴,又开源一款大模型!

美团王兴,又开源一款大模型!

美团王兴,又开源一款大模型!

最近,美团在AI开源赛道上在猛踩加速。今天,在开源其首款大语言模型仅仅24天后,美团又开源了其首款自研推理模型LongCat-Flash-Thinking。与其基础模型LongCat-Flash类似,效率也是LongCat-Flash-Thinking的最大特点。美团在技术报告中透露,LongCat-Flash-Thinking在自研的DORA强化学习基础设施完成训练

来自主题: AI技术研报
6679 点击    2025-09-22 23:05
为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

Cursor Tab 是 Cursor 的核心功能之一,它通过分析开发者的编码行为,智能预测并推荐后续代码,开发者仅需按下 Tab 键即可采纳。然而,它也面临着一个 AI 普遍存在的难题:「过度热情」。有时,它提出的建议不仅毫无用处,甚至会打断开发者的思路。

来自主题: AI技术研报
7426 点击    2025-09-14 21:34
交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式

强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 曾指出,人工智能正在迈入「经验时代」—— 在这个时代,真正的智能不再仅仅依赖大量标注数据的监督学习,而是来源于在真实环境中主动探索、不断积累经验的能力。

来自主题: AI技术研报
7031 点击    2025-09-11 18:53
从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

过去几年,大语言模型(LLM)的训练大多依赖于基于人类或数据偏好的强化学习(Preference-based Reinforcement Fine-tuning, PBRFT):输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明显:缺乏长期规划、环境交互与持续学习能力。

来自主题: AI技术研报
7539 点击    2025-09-09 10:49
断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

来自斯坦福的研究者们最近发布的一篇论文(https://arxiv.org/abs/2509.01684)直指RL强化学习在机器学习工程(Machine Learning Engineering)领域的两个关键问题,并克服了它们,最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示(prompting)的、规模更大的静态语言模型Claude3.5。

来自主题: AI资讯
6395 点击    2025-09-06 11:35
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

无需海量数据标注,智能体也能精确识别定位目标元素了! 来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法,可以让模型在没有标注的数据上自主提升GUI grounding(图形界面定位)能力。

来自主题: AI技术研报
6922 点击    2025-09-05 15:28
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。

来自主题: AI技术研报
5355 点击    2025-09-01 16:49
波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻

波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻

波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻

刚刚,风头被中国机器人盖过的波士顿动力,又整了个大活!前后空翻我还能理解,这侧空翻?(不是哥们,你真会啊!)他们先在仿真环境中进行强化学习,一旦策略出现问题,那么他们就将其部署在真机上进行测试,观察问题,然后反复测试迭代,加强Spot的稳定性。

来自主题: AI资讯
5856 点击    2025-08-29 14:00
Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

强化学习核心是什么?Karpathy一语道破——环境。全新开源Environments Hub横空出世,为强化学习训练带去革命性突破。

来自主题: AI资讯
5793 点击    2025-08-29 13:07