AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: RL
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

基于人类反馈的强化学习 (RLHF) 使得大语言模型的输出能够更加符合人类的目标、期望与需求,是提升许多闭源语言模型 Chat-GPT, Claude, Gemini 表现的核心方法之一。

来自主题: AI资讯
5257 点击    2024-05-18 11:18
「用 AI 训 AI」这事靠谱吗?

「用 AI 训 AI」这事靠谱吗?

「用 AI 训 AI」这事靠谱吗?

在大语言模型领域,微调是改进模型的重要步骤。伴随开源模型数量日益增多,针对LLM的微调方法同样在推陈出新。

来自主题: AI技术研报
8902 点击    2024-05-01 19:31
首届AI方程式大赛,8圈开了一个小时

首届AI方程式大赛,8圈开了一个小时

首届AI方程式大赛,8圈开了一个小时

在阿布扎比的 F1 赛道上,8 辆赛车使用相同的轮胎,相同的发动机,完全一样的车身,唯一不同之处就是自动驾驶代码。

来自主题: AI资讯
7955 点击    2024-04-29 20:39
抱抱脸Open了OpenAI的秘密武器,网易参与复现

抱抱脸Open了OpenAI的秘密武器,网易参与复现

抱抱脸Open了OpenAI的秘密武器,网易参与复现

OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。来自Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline,罗列了25个关键实施细节。

来自主题: AI技术研报
4687 点击    2024-04-08 09:55
刚刚,Sora官方发布首支MV

刚刚,Sora官方发布首支MV

刚刚,Sora官方发布首支MV

AIGC,算是狠狠地震荡了一把音乐圈。就在刚刚,OpenAI官方账号发布的一支由Sora制作的MV(Music Video)——《Worldweight》,引发了不少网友们的围观。

来自主题: AI技术研报
8031 点击    2024-04-03 13:52
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

RLHF 通过学习人类偏好,能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导,得到了很高的关注,在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要

来自主题: AI技术研报
8313 点击    2024-03-28 09:59
谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。

来自主题: AI技术研报
3952 点击    2024-02-10 13:02