AI资讯新闻榜单内容搜索-强化学习

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

把平均成功率从 50% 拉到了 100%。

来自主题: AI资讯

10077 点击 2024-10-29 13:46

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展，据业内人士分析披露，其关键技术在于基于强化学习的搜索与学习机制。通过迭代式的自举过程，o1 基于现有大语言模型的强大推理能力，生成合理的推理过程，并将这些推理融入到其强化学习训练过程中。

来自主题: AI技术研报

11101 点击 2024-10-26 17:01

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

机器人控制和自动驾驶的离线数据损坏问题有解了！中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法，有效地提升了智能决策模型的鲁棒性。

来自主题: AI技术研报

5277 点击 2024-10-20 11:43

Bengio团队新论文！KL正则化有漏洞，强化学习新策略：不要做我可能不会做的事情

在强化学习中，当智能体的奖励机制与设计者的意图不一致时，可能会导致不理想的行为，而KL正则化作为一种常用的解决方案，通过限制智能体的行为来防止这种情况，但智能体在某些情况下仍可能表现出意料之外的行为；为了提高智能体的可靠性，研究人员提出了新的理论方案，通过改变指导原则来增强智能体在未知情况下的谨慎性。

来自主题: AI技术研报

7558 点击 2024-10-19 13:55

首个o1复现开源RL框架OpenR来了，UCL、上交等高校联合团队发布

o1 作为 OpenAI 在推理领域的最新模型，大幅度提升了 GPT-4o 在推理任务上的表现，甚至超过了平均人类水平。o1 背后的技术到底是什么？OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现？

来自主题: AI技术研报

5613 点击 2024-10-14 15:37

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析

现实世界中的强化学习在应用过程中也面临着巨大的挑战，尤其是如何保证系统的安全性。为了解决这一问题，安全强化学习（Safe Reinforcement Learning, Safe RL）应运而生，成为当前学术界和工业界关注的焦点。

来自主题: AI技术研报

5248 点击 2024-10-08 17:23

端到端优化所有能力，字节跳动提出强化学习LLM Agent框架AGILE

大语言模型（Large Language Models, LLMs）的强大能力推动了 LLM Agent 的迅速发展。围绕增强 LLM Agent 的能力，近期相关研究提出了若干关键组件或工作流。然而，如何将核心要素集成到一个统一的框架中，能够进行端到端优化，仍然是一个亟待解决的问题。

来自主题: AI资讯

8960 点击 2024-09-30 16:06

从数据增强的隐藏作用出发，揭示视觉强化学习可塑性损失的独特机制

Sutton 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现：在持续学习环境中，标准深度学习方法的表现竟不及浅层网络。研究指出，这一现象的主要原因是 "可塑性损失"（Plasticity Loss）：深度神经网络在面对非平稳的训练目标持续更新时，会逐渐丧失从新数据中学习的能力。

来自主题: AI资讯

6083 点击 2024-09-29 14:39

Layout工程师危，谷歌自动芯片设计AlphaChip问世，开放权重可外部定制

2020 年，谷歌发表了预印本论文《Chip Placement with Deep Reinforcement Learning》，介绍了其设计芯片布局的新型强化学习方法。后来在 2021 年，谷歌又发表在 Nature 上并开源了出来。

来自主题: AI资讯

7519 点击 2024-09-27 20:46

3D打印新突破！曼大等提出DQN多样化图形路径规划器：锐角转弯降低超93%，热变形减少25%

香港中文大学等机构的研究团队通过深度强化学习（DQN）开发了一种3D打印路径规划器，有效提升了打印效率和精度，为智能制造开辟了新途径。

来自主题: AI技术研报

9215 点击 2024-09-27 19:28