AI资讯新闻榜单内容搜索-强化学习

当奖励成为漏洞：从对齐本质出发自动「越狱」大语言模型

本文第一作者为香港大学博士研究生谢知晖，主要研究兴趣为大模型对齐与强化学习。

来自主题: AI技术研报

8136 点击 2024-08-31 15:09

Yann LeCun不看好强化学习：「我确实更喜欢 MPC」

「相比于强化学习（RL），我确实更喜欢模型预测控制（MPC）。至少从 2016 年起，我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下，模型预测控制是零样本的：如果你有一个良好的世界模型和一个良好的任务目标，模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的，但它的使用应该是最后的手段。」

来自主题: AI资讯

8627 点击 2024-08-26 16:25

ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

RLHF到底是不是强化学习？最近，AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示：比起那种让AlphaGo在围棋中击败人类的强化学习，RLHF还差得远呢。

来自主题: AI资讯

8216 点击 2024-08-10 10:32

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。

来自主题: AI资讯

11320 点击 2024-08-09 13:14

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

大模型展现出了卓越的指令跟从和任务泛化的能力，这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习（RLHF）。

来自主题: AI技术研报

11328 点击 2024-08-03 14:29

上海交通大学温颖教授：打造“通才”Agent｜Agent Insights

解决问题：语言智能体的动作通常由 Token（令牌，语言模型中表示单词/短语/汉字的最小符号单元）序列组成，直接将强化学习用于语言智能体进行策略优化的过程中，一般需要预定义可行动作集合，同时忽略了动作内 Token 细粒度信用分配问题，团队将 Agent 优化从动作层分解到 Token 层，为每个动作内 Token 提供更精细的监督，可在语言动作空间不受约束的环境中实现可控优化复杂度

来自主题: AI资讯

4536 点击 2024-07-29 17:50