AI资讯新闻榜单内容搜索-RLHF

AI会「说谎」，RLHF竟是帮凶

虽然 RLHF 的初衷是用来控制人工智能（AI），但实际上它可能会帮助 AI 欺骗人类。

来自主题: AI资讯

6111 点击 2024-09-23 15:17

一文搞懂SFT、RLHF、DPO、IFT

SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好，再与人类的偏好进行对齐

来自主题: AI资讯

8998 点击 2024-08-22 17:04

ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

RLHF到底是不是强化学习？最近，AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示：比起那种让AlphaGo在围棋中击败人类的强化学习，RLHF还差得远呢。

来自主题: AI资讯

8161 点击 2024-08-10 10:32

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。

来自主题: AI资讯

11280 点击 2024-08-09 13:14

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

为了对齐 LLM，各路研究者妙招连连。

来自主题: AI技术研报

12458 点击 2024-08-05 14:09

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

大模型展现出了卓越的指令跟从和任务泛化的能力，这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习（RLHF）。

来自主题: AI技术研报

11277 点击 2024-08-03 14:29

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。

来自主题: AI技术研报

10386 点击 2024-07-31 16:05

RLHF不够用了，OpenAI设计出了新的奖励机制

OpenAI 的新奖励机制，让大模型更听话了。

来自主题: AI技术研报

6745 点击 2024-07-25 18:25

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。

来自主题: AI资讯

12429 点击 2024-07-21 17:10

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。

来自主题: AI技术研报

5986 点击 2024-06-23 19:39