AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7

312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7

312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。

来自主题: AI技术研报
7176 点击    2025-05-25 15:11
深度|OpenAI研究员Dan Roberts:AI主流认知将被打破,未来某个时点强化学习将完全主导整个训练过程

深度|OpenAI研究员Dan Roberts:AI主流认知将被打破,未来某个时点强化学习将完全主导整个训练过程

深度|OpenAI研究员Dan Roberts:AI主流认知将被打破,未来某个时点强化学习将完全主导整个训练过程

我们发现,当模型在测试阶段花更多时间思考时,其推理表现会显著提升,这打破了业界普遍依赖预训练算力的传统认知。

来自主题: AI资讯
7979 点击    2025-05-18 14:56
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,

来自主题: AI技术研报
5903 点击    2025-05-16 15:25
DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

来自主题: AI技术研报
6970 点击    2025-05-15 10:47
OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

近日,《自然》杂志独家专访了OpenAI首席科学家Jakub Pachocki,他揭示了推理模型、强化学习如何赋予AI自主发现科学的能力,并分享了AI如何在五年内重塑科学研究与经济格局的雄心。

来自主题: AI资讯
7853 点击    2025-05-14 11:42
100万美元图灵奖奖金,强化学习师徒想献给科研自由

100万美元图灵奖奖金,强化学习师徒想献给科研自由

100万美元图灵奖奖金,强化学习师徒想献给科研自由

80年代,当强化学习被冷落,这对师徒没有放弃;如今,重看来时路,他们给出的建议仍然是,「坚持」住自己的科研思想。

来自主题: AI资讯
5858 点击    2025-05-13 14:41
9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI?OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」

来自主题: AI资讯
6783 点击    2025-05-10 17:51
万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作

万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作

万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作

华人学者参与的一项研究,重新确立了强化学习在LLM微调的价值,深度解释了AI训练「两阶段强化学习」的原因。某种意义上,他们的论文说明RL微调就是统计。

来自主题: AI技术研报
8043 点击    2025-05-10 15:10