AI TNT— 让一部分先用AI实现商业化

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: RL

LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

Self-play RL 开启 AGI 下半场

来自主题: AI资讯

5856 点击 2024-09-15 16:14

LLM的范式转移：RL带来新的 Scaling Law

LLM的范式转移：RL带来新的 Scaling Law

从几周前 Sam Altman 在 X 上发布草莓照片开始，整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道，Strawberry 就是之前的 Q-star，其合成数据的方法会大幅提升 LLM 的智能推理能力，尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上，帮助 OpenAI 新一代 Orion。

来自主题: AI资讯

6809 点击 2024-08-31 11:19

RL 是 LLM 的新范式

RL 是 LLM 的新范式

AGI 正在迎来新范式，RL 是 LLM 的秘密武器。

来自主题: AI资讯

7743 点击 2024-08-27 10:36

一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好，再与人类的偏好进行对齐

来自主题: AI资讯

3779 点击 2024-08-22 17:04

ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

RLHF到底是不是强化学习？最近，AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示：比起那种让AlphaGo在围棋中击败人类的强化学习，RLHF还差得远呢。

来自主题: AI资讯

5849 点击 2024-08-10 10:32

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。

来自主题: AI资讯

9082 点击 2024-08-09 13:14

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

为了对齐 LLM，各路研究者妙招连连。

来自主题: AI技术研报

8128 点击 2024-08-05 14:09

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

大模型展现出了卓越的指令跟从和任务泛化的能力，这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习（RLHF）。

来自主题: AI技术研报

8955 点击 2024-08-03 14:29

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。

来自主题: AI技术研报

7854 点击 2024-07-31 16:05

RLHF不够用了，OpenAI设计出了新的奖励机制

RLHF不够用了，OpenAI设计出了新的奖励机制

OpenAI 的新奖励机制，让大模型更听话了。

来自主题: AI技术研报

4727 点击 2024-07-25 18:25

上一页当前第1页,共3页下一页