AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
强化学习,正在引领AI跨越LLM之谷

强化学习,正在引领AI跨越LLM之谷

强化学习,正在引领AI跨越LLM之谷

OpenAI的研究科学家布朗(Noam Brown),这两天在他的自我介绍中,加上了一条:OpanAI o1的联合创始人。

来自主题: AI资讯
3303 点击    2024-09-18 10:56
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题,明确的正确答案> ,再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索,只要提供足够的计算量用于搜索,总可以搜到最后的正确路径。然而,这样只是建立起问题和答案之间的更好的联系,如何泛化到更复杂的问题场景,技术远不止这么简单。

来自主题: AI技术研报
6645 点击    2024-09-15 14:41
清华、北大等发布Self-Play强化学习最新综述

清华、北大等发布Self-Play强化学习最新综述

清华、北大等发布Self-Play强化学习最新综述

本文作者来自于清华大学电子工程系,北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士,主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

来自主题: AI技术研报
7852 点击    2024-09-10 11:48
北大领衔,多智能体强化学习研究登上Nature子刊

北大领衔,多智能体强化学习研究登上Nature子刊

北大领衔,多智能体强化学习研究登上Nature子刊

近日,由北京大学人工智能研究院杨耀东课题组牵头完成的研究成果 ——「大规模多智能体系统的高效强化学习」在人工智能顶级学术期刊 Nature Machine Intelligence 上发表。

来自主题: AI技术研报
7676 点击    2024-09-06 11:55
当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

本文第一作者为香港大学博士研究生谢知晖,主要研究兴趣为大模型对齐与强化学习。

来自主题: AI技术研报
5780 点击    2024-08-31 15:09
Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

「相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)。至少从 2016 年起,我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下,模型预测控制是零样本的:如果你有一个良好的世界模型和一个良好的任务目标,模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的,但它的使用应该是最后的手段。」

来自主题: AI资讯
7443 点击    2024-08-26 16:25