AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

在机器人与自动驾驶领域,由强化学习训练的控制策略普遍存在控制动作不平滑的问题。这种高频的动作震荡不仅会加剧硬件磨损、导致系统过热,更会在真实世界的复杂扰动下引发系统失稳,是阻碍强化学习走向现实应用的关键挑战。

来自主题: AI技术研报
7409 点击    2025-10-18 11:54
小米最新大模型成果!罗福莉现身了

小米最新大模型成果!罗福莉现身了

小米最新大模型成果!罗福莉现身了

小米的最新大模型科研成果,对外曝光了。就在最近,小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。而其中,因为更早之前在DeepSeek R1爆火前转会小米的罗福莉,也赫然在列,还是通讯作者。

来自主题: AI技术研报
7686 点击    2025-10-17 16:44
RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

大模型强化学习总是「用力过猛」?Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则(rubric)的奖励建模新方法,从理论和实验两个维度证明:要想让大模型对齐效果好,关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源,还提供了实用的解决方案。

来自主题: AI技术研报
7361 点击    2025-10-17 09:48
北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是,以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

来自主题: AI技术研报
5984 点击    2025-10-15 14:19
只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。

来自主题: AI技术研报
7616 点击    2025-10-15 12:07
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

让智能体自己摸索新方法,还模仿自己的成功经验。腾讯优图实验室开源强化学习算法——SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。

来自主题: AI技术研报
7027 点击    2025-10-13 15:45
刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人

刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人

刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人

风雨飘摇中的Meta,于昨天发布了一篇重量级论文,提出了一种被称作「早期经验」(Early Experience)的全新范式,让AI智能体「无师自通」,为突破强化学习瓶颈提供了一种新思路。

来自主题: AI技术研报
8664 点击    2025-10-12 11:01
开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座,再度易主!来自快手的KAT-Dev-72B-Exp,在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一。KAT-Dev-72B-Exp是KAT-Coder模型的实验性强化学习版本。

来自主题: AI资讯
10851 点击    2025-10-11 15:57