AI资讯新闻榜单内容搜索-RLHF

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RLHF
AI会「说谎」,RLHF竟是帮凶

AI会「说谎」,RLHF竟是帮凶

AI会「说谎」,RLHF竟是帮凶

虽然 RLHF 的初衷是用来控制人工智能(AI),但实际上它可能会帮助 AI 欺骗人类。

来自主题: AI资讯
4533 点击    2024-09-23 15:17
一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐

来自主题: AI资讯
5764 点击    2024-08-22 17:04
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

RLHF到底是不是强化学习?最近,AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示:比起那种让AlphaGo在围棋中击败人类的强化学习,RLHF还差得远呢。

来自主题: AI资讯
6448 点击    2024-08-10 10:32
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效

首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效

首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效

大模型展现出了卓越的指令跟从和任务泛化的能力,这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习(RLHF)。

来自主题: AI技术研报
9619 点击    2024-08-03 14:29
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。

来自主题: AI技术研报
8484 点击    2024-07-31 16:05
RLHF不够用了,OpenAI设计出了新的奖励机制

RLHF不够用了,OpenAI设计出了新的奖励机制

RLHF不够用了,OpenAI设计出了新的奖励机制

OpenAI 的新奖励机制,让大模型更听话了。

来自主题: AI技术研报
5317 点击    2024-07-25 18:25