AI TNT— 让一部分先用AI实现商业化

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: RL

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。

来自主题: AI资讯

9110 点击 2024-07-21 17:10

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。

来自主题: AI技术研报

2904 点击 2024-06-23 19:39

这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

随着大型语言模型（LLM）规模不断增大，其性能也在不断提升。尽管如此，LLM 依然面临着一个关键难题：与人类的价值和意图对齐。在解决这一难题方面，一种强大的技术是根据人类反馈的强化学习（RLHF）。

来自主题: AI技术研报

8569 点击 2024-06-07 10:36

陈丹琦团队新作：微调8B模型超越Claude3 Opus，背后是RLHF新平替

陈丹琦团队新作：微调8B模型超越Claude3 Opus，背后是RLHF新平替

比斯坦福DPO（直接偏好优化）更简单的RLHF平替来了，来自陈丹琦团队。该方式在多项测试中性能都远超DPO，还能让8B模型战胜Claude 3的超大杯Opus。而且与DPO相比，训练时间和GPU消耗也都大幅减少。

来自主题: AI资讯

7890 点击 2024-05-27 16:39

仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

基于人类反馈的强化学习 (RLHF) 使得大语言模型的输出能够更加符合人类的目标、期望与需求，是提升许多闭源语言模型 Chat-GPT, Claude, Gemini 表现的核心方法之一。

来自主题: AI资讯

4833 点击 2024-05-18 11:18

Ilya出走加剧OpenAI离职潮！RLHF作者Jan Leike同日辞职，超级对齐项目分崩离析

Ilya出走加剧OpenAI离职潮！RLHF作者Jan Leike同日辞职，超级对齐项目分崩离析

Ilya Sutskever宣布退出OpenAI，震动整个AI圈。

来自主题: AI技术研报

8816 点击 2024-05-15 21:49

「用 AI 训 AI」这事靠谱吗？

「用 AI 训 AI」这事靠谱吗？

在大语言模型领域，微调是改进模型的重要步骤。伴随开源模型数量日益增多，针对LLM的微调方法同样在推陈出新。

来自主题: AI技术研报

8478 点击 2024-05-01 19:31

首届AI方程式大赛，8圈开了一个小时

首届AI方程式大赛，8圈开了一个小时

在阿布扎比的 F1 赛道上，8 辆赛车使用相同的轮胎，相同的发动机，完全一样的车身，唯一不同之处就是自动驾驶代码。

来自主题: AI资讯

7547 点击 2024-04-29 20:39

抱抱脸Open了OpenAI的秘密武器，网易参与复现

抱抱脸Open了OpenAI的秘密武器，网易参与复现

OpenAI的秘密武器、ChatGPT背后功臣RLHF，被开源了。来自Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline，罗列了25个关键实施细节。

来自主题: AI技术研报

4204 点击 2024-04-08 09:55

ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景

ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景

RLHF 通过学习人类偏好，能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导，得到了很高的关注，在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要

来自主题: AI技术研报

7826 点击 2024-03-28 09:59

上一页当前第2页,共3页下一页