AI TNT— 让一部分先用AI实现商业化

具身智能基础——强化学习

强化学习中的核心概念是智能体（Agent）和环境（Environment）之间的交互。智能体通过观察环境的状态，选择动作来改变环境，环境根据动作反馈出奖励和新的状态。

来自主题: AI技术研报

2840 点击 2024-11-11 20:56

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

在奖励中减去平均奖励

来自主题: AI技术研报

6730 点击 2024-11-01 12:43

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

机器人控制和自动驾驶的离线数据损坏问题有解了！中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法，有效地提升了智能决策模型的鲁棒性。

来自主题: AI技术研报

2779 点击 2024-10-20 11:43

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析

现实世界中的强化学习在应用过程中也面临着巨大的挑战，尤其是如何保证系统的安全性。为了解决这一问题，安全强化学习（Safe Reinforcement Learning, Safe RL）应运而生，成为当前学术界和工业界关注的焦点。

来自主题: AI技术研报

3217 点击 2024-10-08 17:23

从数据增强的隐藏作用出发，揭示视觉强化学习可塑性损失的独特机制

Sutton 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现：在持续学习环境中，标准深度学习方法的表现竟不及浅层网络。研究指出，这一现象的主要原因是 "可塑性损失"（Plasticity Loss）：深度神经网络在面对非平稳的训练目标持续更新时，会逐渐丧失从新数据中学习的能力。

来自主题: AI资讯

3180 点击 2024-09-29 14:39

3D打印新突破！曼大等提出DQN多样化图形路径规划器：锐角转弯降低超93%，热变形减少25%

香港中文大学等机构的研究团队通过深度强化学习（DQN）开发了一种3D打印路径规划器，有效提升了打印效率和精度，为智能制造开辟了新途径。

来自主题: AI技术研报

7138 点击 2024-09-27 19:28

完全使用「自生成数据」实现LLM自我纠正，DeepMind新突破SCoRe：纠正性能提升15.9%

Google DeepMind的SCoRe方法通过在线多轮强化学习，显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中，分别将自我修正性能提高了15.6%和9.1%。

来自主题: AI技术研报

9200 点击 2024-09-27 19:26

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

无需依赖外部反馈或额外模型，纯纯的自我纠正。

来自主题: AI技术研报

5776 点击 2024-09-21 18:07

强化学习，正在引领AI跨越LLM之谷

OpenAI的研究科学家布朗（Noam Brown），这两天在他的自我介绍中，加上了一条：OpanAI o1的联合创始人。

来自主题: AI资讯

2673 点击 2024-09-18 10:56

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题，明确的正确答案> ，再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索，只要提供足够的计算量用于搜索，总可以搜到最后的正确路径。然而，这样只是建立起问题和答案之间的更好的联系，如何泛化到更复杂的问题场景，技术远不止这么简单。

来自主题: AI技术研报

5712 点击 2024-09-15 14:41