率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024
3195点击    2024-10-20 11:43

机器人控制和自动驾驶的离线数据损坏问题有解了!


中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性。


论文发表在CCF-A类人工智能顶级会议NeurIPS 2024。


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


现实世界的离线数据集(如机器人控制、自动驾驶等)常常因传感器故障或恶意攻击而受到数据损坏(如数据带有噪声或对抗性攻击)的影响。


尽管现有离线强化学习(offline RL)方法在鲁棒性方面已取得了进展,但它们仍难以处理因离线数据的各类元素(即状态、动作、奖励和转移动态)均部分损坏所引入的高不确定性。


作者针对离线数据的各类元素均有受损这一复杂的实际问题,提出了一种鲁棒的变分贝叶斯推断方法TRACER


在面临各类数据损坏时,该方法于所有实验中均实现了最优,相对于现有的SOTA方法提升了高达+21.1%的决策性能,并在24组仅有单类数据损坏的实验中仍实现了16组的最优性能


TRACER主要具有以下三点优势:


  • TRACER首次将贝叶斯推断引入到抗损坏的离线强化学习(corruption-robust offline RL)中。通过将所有离线数据作为观测值,TRACER捕捉了由各类损坏数据所导致的动作价值函数中的不确定性。
  • 通过引入基于熵的不确定性度量,TRACER能够区分损坏数据和干净数据,从而调控并减弱损坏数据对智能体模型训练的影响,以增强鲁棒性。
  • 作者在机器人控制(MuJoCo)和自动驾驶(CARLA)仿真环境中进行了系统性地测试,验证了TRACER在各类离线数据损坏、单类离线数据损坏的场景中均显著提升了智能体的鲁棒性,超出了多个现有的SOTA方法。


背景与问题


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


方法介绍


总的来说,该方法将所有类别的数据损坏视为行动价值函数(action-value function)中的不确定性,并使用所有类别的离线数据作为观测值,以估计行动价值函数的后验分布。


这显著增强了智能体对所有类别数据损坏的鲁棒性


此外,考虑到受损数据通常会引起更高的不确定性和熵,该方法引入了基于熵的不确定性度量,进而能有效区分损坏数据和干净数据


基于这类度量,该方法能调节并减弱损坏数据对智能体模型训练的负面影响,进而显著提高模型在干净测试环境中的鲁棒性和性能。


动机


使用多种受损数据估计累积奖励函数(即动作值函数)会引入很高的不确定性,原因主要有两个方面:


  • 一是多种类型的损毁会向数据集的所有元素引入较高的不确定性;
  • 二是每个元素与累积奖励(即动作值、Q值)之间存在明确的相关性关系。


下图为决策过程的概率图模型。实线连接的节点表示数据集中的数据,而虚线连接的Q值(即动作值、累积回报)不属于数据集。这些Q值通常是算法旨在估计的任务目标。


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


为了处理这类由多种数据损毁(即状态、动作、奖励、状态转移数据受损)导致的高不确定性问题,基于上图所示的概率图模型,作者提出利用数据集中的所有元素作为观测数据。


这样做的目的,是利用这些观测数据与累积奖励之间的高度相关性,来准确地识别动作值函数的不确定性。


基于受损数据的贝叶斯推断


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


基于熵的不确定性度量


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


算法架构


TRACER的框架图如下所示。


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


数据受损,依然保持鲁棒性


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


单种类型数据元素存在损坏的部分实验结果见表2和表3。


而在单类数据损坏中,TRACER于24个实验设置里实现16组最优性能,可见TRACER面向小规模、单类数据损坏的问题也能有效地增强鲁棒性。


存在随机损坏时,TRACER在8个实验设置中获得了最高的平均得分。


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


同样地,单类元素存在对抗损坏时,TRACER在8个实验设置中也获得了最高的平均得分。


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024


作者简介


本论文作者杨睿是中国科学技术大学2019级硕博连读生,师从王杰教授、李斌教授,主要研究方向为强化学习、自动驾驶等。


他曾以第一作者在 NeurIPS、KDD 等顶级期刊与会议上发表论文两篇,曾获滴滴精英实习生(16/1000+)


论文地址:


https://openreview.net/pdf?id=rTxCIWsfsD


GitHub:


https://github.com/MIRALab-USTC/RL-TRACER


文章来自于微信公众号“量子位”,作者“中科大杨睿”


率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024



AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md