AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

Adam优化器是深度学习中常用的优化算法,但其性能背后的理论解释一直不完善。近日,来自清华大学的团队提出了RAD优化器,扩展了Adam的理论基础,提升了训练稳定性。实验显示RAD在多种强化学习任务中表现优于Adam。

来自主题: AI技术研报
7902 点击    2025-04-23 14:09
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。

来自主题: AI技术研报
6793 点击    2025-04-23 14:04
硅谷AI初创要让60亿人失业,网友痛批人类叛徒!Jeff Dean已投

硅谷AI初创要让60亿人失业,网友痛批人类叛徒!Jeff Dean已投

硅谷AI初创要让60亿人失业,网友痛批人类叛徒!Jeff Dean已投

AI的野心从未如此大胆!新创公司Mechanize目标直指「全面自动化所有工作」和「经济无人化」,瞄准全球60万亿美元的劳动力市场。从虚拟工作环境到强化学习,Mechanize计划用AI智能体取代人类岗位,引发巨大争议。

来自主题: AI资讯
8913 点击    2025-04-22 09:06
UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

DeepSeek-R1 展示了强化学习在提升模型推理能力方面的巨大潜力,尤其是在无需人工标注推理过程的设定下,模型可以学习到如何更合理地组织回答。然而,这类模型缺乏对外部数据源的实时访问能力,一旦训练语料中不存在某些关键信息,推理过程往往会因知识缺失而失败。

来自主题: AI技术研报
6977 点击    2025-04-22 09:02
谷歌联合强化学习之父:通过经验学习的4大核心,Agent将获得超人能力 |最新战略瞭望

谷歌联合强化学习之父:通过经验学习的4大核心,Agent将获得超人能力 |最新战略瞭望

谷歌联合强化学习之父:通过经验学习的4大核心,Agent将获得超人能力 |最新战略瞭望

本文对DeepMind两位泰斗级科学家David Silver和Richard Sutton的重磅论文《Welcome to the Era of Experience》进行了深度解读,我将其视为AI发展方向的一份战略瞭望图。

来自主题: AI技术研报
7102 点击    2025-04-22 08:43
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。

来自主题: AI技术研报
5109 点击    2025-04-22 08:39
强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝:如今,人类已经由数据时代踏入经验时代。通往ASI之路要靠RL,而非人类数据!

来自主题: AI技术研报
8114 点击    2025-04-21 10:52
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

o3编码直逼全球TOP 200人类选手,却存在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。

来自主题: AI技术研报
6975 点击    2025-04-21 09:41
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%!

来自主题: AI技术研报
7896 点击    2025-04-20 22:19