AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

在人工智能发展史上,强化学习 (RL) 凭借其严谨的数学框架解决了众多复杂的决策问题,从围棋、国际象棋到机器人控制等领域都取得了突破性进展。

来自主题: AI技术研报
7219 点击    2024-12-07 15:11
离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

Lilian Weng离职OpenAI后首篇博客发布!文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升,以及RLHF逐渐成为对齐训练的默认方法,奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。

来自主题: AI资讯
7119 点击    2024-12-06 09:54
三大AI顶流,争着“造世界”

三大AI顶流,争着“造世界”

三大AI顶流,争着“造世界”

当前构建数字世界有三条路线:OpenAI的Sora追求视觉真实,谷歌的Genie 2注重实时交互,World Labs专注空间准确。这三条路线各有优势,也各有无法在短期内解决的问题。

来自主题: AI资讯
7029 点击    2024-12-06 09:44
3个月估值10亿,李飞飞空间智能首个模型诞生!一张图生成3D世界,视频游戏要变天

3个月估值10亿,李飞飞空间智能首个模型诞生!一张图生成3D世界,视频游戏要变天

3个月估值10亿,李飞飞空间智能首个模型诞生!一张图生成3D世界,视频游戏要变天

李飞飞的World Labs首个「空间智能」模型,刚刚诞生了!一张图生成一个3D世界,网友惊呼:太疯狂了,我们进入了下一轮革命,这就是视频游戏、电影的未来。

来自主题: AI资讯
8438 点击    2024-12-03 17:11
李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

如何让机器人拥有人一样的协调行动能力是具身智能不可避免的挑战,而李飞飞团队在CoRL-LEAP研讨会获得最佳论文奖的ReKep对于这一挑战交出了一张亮眼的答卷。

来自主题: AI技术研报
7082 点击    2024-12-03 15:27
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。当然是发~博~客。这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。主题围绕强化学习中奖励黑客(Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。

来自主题: AI技术研报
7089 点击    2024-12-03 00:16
无需Transformer,简单滤波器即可提高时间序列预测精度 | NeurIPS 2024

无需Transformer,简单滤波器即可提高时间序列预测精度 | NeurIPS 2024

无需Transformer,简单滤波器即可提高时间序列预测精度 | NeurIPS 2024

无需Transformer,简单滤波器即可提高时间序列预测精度。 由国家信息中心、牛津大学、北京理工大学、同济大学、中国科学技术大学等机构的团队提出了一个FilterNet。 目前已被NeurlPS 2024接收。

来自主题: AI技术研报
6102 点击    2024-12-01 14:12
流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

自然智能(Natural intelligence)过程就像一条连续的流,可以实时地感知、行动和学习。流式学习是 Q 学习和 TD 等经典强化学习 (RL) 算法的运作方式,它通过使用最新样本而不存储样本来模仿自然学习。这种方法也非常适合资源受限、通信受限和隐私敏感的应用程序。

来自主题: AI技术研报
5888 点击    2024-11-29 15:18
智能体零样本解决未见过人类设计环境!全靠这个开放式物理RL环境空间

智能体零样本解决未见过人类设计环境!全靠这个开放式物理RL环境空间

智能体零样本解决未见过人类设计环境!全靠这个开放式物理RL环境空间

在机器学习领域,开发一个在未见过领域表现出色的通用智能体一直是长期目标之一。一种观点认为,在大量离线文本和视频数据上训练的大型 transformer 最终可以实现这一目标。

来自主题: AI技术研报
5210 点击    2024-11-24 19:59