AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
情人节最硬核“Kiss”!中国AI突破300年亲吻数难题,连刷多维度纪录

情人节最硬核“Kiss”!中国AI突破300年亲吻数难题,连刷多维度纪录

情人节最硬核“Kiss”!中国AI突破300年亲吻数难题,连刷多维度纪录

来自上海科学智能研究院(上智院)、北京大学、复旦大学的联合团队,提出了一套名为PackingStar的强化学习系统,一口气刷新了25-31连续7个维度的世界纪录。

来自主题: AI资讯
7396 点击    2026-02-14 22:20
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。

来自主题: AI技术研报
8828 点击    2026-02-10 14:19
给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

文本摘要作为自然语言处理(NLP)的核心任务,其质量评估通常需要兼顾一致性(Consistency)、连贯性(Coherence)、流畅性(Fluency)和相关性(Relevance)等多个维度。

来自主题: AI技术研报
8475 点击    2026-02-10 14:11
人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

目前,人形机器人已经能在现实中跳舞、奔跑、甚至完成后空翻。但接下来更关键的问题是:这些系统能否在部署之后持续地进行强化学习 —— 在真实世界的反馈中变得更稳定、更可靠,并在分布不断变化的新环境里持续适应与改进?

来自主题: AI技术研报
9954 点击    2026-02-08 11:56
ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

2025 年 1 月 20 日,DeepSeek 发布了推理大模型 DeepSeek-R1,在学术界和工业界引发了对大模型强化学习方法的广泛关注与研究热潮。 研究者发现,在数学推理等具有明确答案的任务

来自主题: AI技术研报
6080 点击    2026-02-08 11:52
强化学习远不是最优,CMU刚刚提出最大似然强化学习

强化学习远不是最优,CMU刚刚提出最大似然强化学习

强化学习远不是最优,CMU刚刚提出最大似然强化学习

在大模型时代,从代码生成到数学推理,再到自主规划的 Agent 系统,强化学习几乎成了「最后一公里」的标准配置。

来自主题: AI技术研报
6752 点击    2026-02-06 10:34
突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

突发!姚顺雨后,清华95后庞天宇加入腾讯,任混元「主任研究员」

继OpenAI大神姚顺雨之后,腾讯AI再添猛将!95后清华「天骄」庞天宇,正式入职腾讯,出任混元首席研究科学家,负责多模态强化学习。腾讯的大模型「梦之队」版图,正在极速扩张。

来自主题: AI资讯
8868 点击    2026-01-30 22:54
比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

在技术如火如荼发展的当下,业界常常在思考一个问题:如何利用 AI 发现科学问题的新最优解?

来自主题: AI技术研报
9761 点击    2026-01-28 14:55
世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源

世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源

世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源

在具身智能(Embodied AI)的快速发展中,样本效率已成为制约智能体从实验室环境走向复杂开放世界的瓶颈问题。

来自主题: AI技术研报
10257 点击    2026-01-21 16:09