率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

3448点击 2024-10-20 11:43

机器人控制和自动驾驶的离线数据损坏问题有解了！

中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法，有效地提升了智能决策模型的鲁棒性。

论文发表在CCF-A类人工智能顶级会议NeurIPS 2024。

现实世界的离线数据集（如机器人控制、自动驾驶等）常常因传感器故障或恶意攻击而受到数据损坏（如数据带有噪声或对抗性攻击）的影响。

尽管现有离线强化学习（offline RL）方法在鲁棒性方面已取得了进展，但它们仍难以处理因离线数据的各类元素（即状态、动作、奖励和转移动态）均部分损坏所引入的高不确定性。

作者针对离线数据的各类元素均有受损这一复杂的实际问题，提出了一种鲁棒的变分贝叶斯推断方法TRACER。

在面临各类数据损坏时，该方法于所有实验中均实现了最优，相对于现有的SOTA方法提升了高达+21.1%的决策性能，并在24组仅有单类数据损坏的实验中仍实现了16组的最优性能。

TRACER主要具有以下三点优势：

TRACER首次将贝叶斯推断引入到抗损坏的离线强化学习（corruption-robust offline RL）中。通过将所有离线数据作为观测值，TRACER捕捉了由各类损坏数据所导致的动作价值函数中的不确定性。
通过引入基于熵的不确定性度量，TRACER能够区分损坏数据和干净数据，从而调控并减弱损坏数据对智能体模型训练的影响，以增强鲁棒性。
作者在机器人控制（MuJoCo）和自动驾驶（CARLA）仿真环境中进行了系统性地测试，验证了TRACER在各类离线数据损坏、单类离线数据损坏的场景中均显著提升了智能体的鲁棒性，超出了多个现有的SOTA方法。

背景与问题

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

方法介绍

总的来说，该方法将所有类别的数据损坏视为行动价值函数（action-value function）中的不确定性，并使用所有类别的离线数据作为观测值，以估计行动价值函数的后验分布。

这显著增强了智能体对所有类别数据损坏的鲁棒性。

此外，考虑到受损数据通常会引起更高的不确定性和熵，该方法引入了基于熵的不确定性度量，进而能有效区分损坏数据和干净数据。

基于这类度量，该方法能调节并减弱损坏数据对智能体模型训练的负面影响，进而显著提高模型在干净测试环境中的鲁棒性和性能。

动机

使用多种受损数据估计累积奖励函数（即动作值函数）会引入很高的不确定性，原因主要有两个方面：

一是多种类型的损毁会向数据集的所有元素引入较高的不确定性；
二是每个元素与累积奖励（即动作值、Q值）之间存在明确的相关性关系。

下图为决策过程的概率图模型。实线连接的节点表示数据集中的数据，而虚线连接的Q值（即动作值、累积回报）不属于数据集。这些Q值通常是算法旨在估计的任务目标。

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

为了处理这类由多种数据损毁（即状态、动作、奖励、状态转移数据受损）导致的高不确定性问题，基于上图所示的概率图模型，作者提出利用数据集中的所有元素作为观测数据。

这样做的目的，是利用这些观测数据与累积奖励之间的高度相关性，来准确地识别动作值函数的不确定性。

基于受损数据的贝叶斯推断

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

基于熵的不确定性度量

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

算法架构

TRACER的框架图如下所示。

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

数据受损，依然保持鲁棒性

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

单种类型数据元素存在损坏的部分实验结果见表2和表3。

而在单类数据损坏中，TRACER于24个实验设置里实现16组最优性能，可见TRACER面向小规模、单类数据损坏的问题也能有效地增强鲁棒性。

存在随机损坏时，TRACER在8个实验设置中获得了最高的平均得分。

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

同样地，单类元素存在对抗损坏时，TRACER在8个实验设置中也获得了最高的平均得分。

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

作者简介

本论文作者杨睿是中国科学技术大学2019级硕博连读生，师从王杰教授、李斌教授，主要研究方向为强化学习、自动驾驶等。

他曾以第一作者在 NeurIPS、KDD 等顶级期刊与会议上发表论文两篇，曾获滴滴精英实习生（16/1000+）。

论文地址：

https://openreview.net/pdf?id=rTxCIWsfsD

GitHub：

https://github.com/MIRALab-USTC/RL-TRACER

文章来自于微信公众号“量子位”，作者“中科大杨睿”

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

关键词: 模型训练 , AI , 强化学习 , 变分贝叶斯

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md