AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
2026年,大模型训练的下半场属于「强化学习云」

2026年,大模型训练的下半场属于「强化学习云」

2026年,大模型训练的下半场属于「强化学习云」

2024 年底,硅谷和北京的茶水间里都在讨论同一个令人不安的话题:Scaling Law 似乎正在撞墙。

来自主题: AI技术研报
8377 点击    2026-01-12 15:13
挑战GRPO,英伟达提出GDPO,专攻多奖励优化

挑战GRPO,英伟达提出GDPO,专攻多奖励优化

挑战GRPO,英伟达提出GDPO,专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报
7170 点击    2026-01-12 09:34
大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL

大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL

大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL

近日,清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习,让大模型在策略游戏中进行自博弈(Self-Play)。实验表明,这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水

来自主题: AI技术研报
8123 点击    2026-01-10 10:16
AI4S回归白盒符号主义,清华等联合发布SR-LLM:自主发现科学知识

AI4S回归白盒符号主义,清华等联合发布SR-LLM:自主发现科学知识

AI4S回归白盒符号主义,清华等联合发布SR-LLM:自主发现科学知识

清华大学等多所高校联合发布SR-LLM,这是一种融合大语言模型与深度强化学习的符号回归框架。它通过检索增强和语义推理,从数据中生成简洁、可解释的数学模型,显著优于现有方法。在跟车行为建模等任务中,SR-LLM不仅复现经典模型,还发现更优新模型,为机器自主科学发现开辟新路径。

来自主题: AI技术研报
9738 点击    2025-12-29 14:37
大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新

大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新

大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新

直到刚刚,用最新的图像模型NextStep-1.1,扳回一球。总体来看,这次开源的NextStep-1.1解决了之前NextStep-1中出现的可视化失败(visualization failures )问题。其通过扩展训练和基于流的强化学习(RL)后训练范式,大幅提升了图像质量。

来自主题: AI资讯
8795 点击    2025-12-28 09:57
RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

强化学习(RL)在大语言模型和 2D 图像生成中大获成功后,首次被系统性拓展到文本到 3D 生成领域!面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战,研究者们首次系统研究了 RL 在 3D 自回归生成中的应用!

来自主题: AI技术研报
8075 点击    2025-12-23 09:27
首个文本到3D生成RL范式诞生,攻克几何与物理合理性

首个文本到3D生成RL范式诞生,攻克几何与物理合理性

首个文本到3D生成RL范式诞生,攻克几何与物理合理性

在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。

来自主题: AI技术研报
6016 点击    2025-12-22 09:38
亚马逊AGI负责人离职,强化学习大佬Pieter Abbeel接任

亚马逊AGI负责人离职,强化学习大佬Pieter Abbeel接任

亚马逊AGI负责人离职,强化学习大佬Pieter Abbeel接任

本周四消息,于两年前创立亚马逊 AGI 团队的高级副总裁兼首席科学家 Rohit Prasad 已官宣离职。

来自主题: AI资讯
7497 点击    2025-12-19 11:47