AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

在人工智能发展史上,强化学习 (RL) 凭借其严谨的数学框架解决了众多复杂的决策问题,从围棋、国际象棋到机器人控制等领域都取得了突破性进展。

来自主题: AI技术研报
7967 点击    2024-12-07 15:11
离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

Lilian Weng离职OpenAI后首篇博客发布!文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升,以及RLHF逐渐成为对齐训练的默认方法,奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。

来自主题: AI资讯
8009 点击    2024-12-06 09:54
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。当然是发~博~客。这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。主题围绕强化学习中奖励黑客(Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。

来自主题: AI技术研报
8271 点击    2024-12-03 00:16
流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

自然智能(Natural intelligence)过程就像一条连续的流,可以实时地感知、行动和学习。流式学习是 Q 学习和 TD 等经典强化学习 (RL) 算法的运作方式,它通过使用最新样本而不存储样本来模仿自然学习。这种方法也非常适合资源受限、通信受限和隐私敏感的应用程序。

来自主题: AI技术研报
6560 点击    2024-11-29 15:18
谈谈「机器人创业」圈子里的鄙视链丨智涌分析

谈谈「机器人创业」圈子里的鄙视链丨智涌分析

谈谈「机器人创业」圈子里的鄙视链丨智涌分析

“搞软件的,鄙视搞硬件的,搞大模型的,看不起强化学习的”,多位行业人士给出了类似的观察。

来自主题: AI资讯
5569 点击    2024-11-25 14:49
DeepSeek 推理模型预览版上线,解密 o1 推理过程

DeepSeek 推理模型预览版上线,解密 o1 推理过程

DeepSeek 推理模型预览版上线,解密 o1 推理过程

今天,DeepSeek 全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。所有用户均可登录官方网页 (chat.deepseek.com),一键开启与 R1-Lite 预览版模型的超强推理对话体验。DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。

来自主题: AI资讯
10755 点击    2024-11-20 23:11
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

DIAMOND是一种新型的强化学习智能体,在一个由扩散模型构建的虚拟世界中进行训练,能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中,DIAMOND的平均得分超越了人类玩家,证明了其在模拟复杂环境中处理细节和进行决策的能力。

来自主题: AI技术研报
6016 点击    2024-11-18 15:24