机器人控制和自动驾驶的离线数据损坏问题有解了!
中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性。
论文发表在CCF-A类人工智能顶级会议NeurIPS 2024。
现实世界的离线数据集(如机器人控制、自动驾驶等)常常因传感器故障或恶意攻击而受到数据损坏(如数据带有噪声或对抗性攻击)的影响。
尽管现有离线强化学习(offline RL)方法在鲁棒性方面已取得了进展,但它们仍难以处理因离线数据的各类元素(即状态、动作、奖励和转移动态)均部分损坏所引入的高不确定性。
作者针对离线数据的各类元素均有受损这一复杂的实际问题,提出了一种鲁棒的变分贝叶斯推断方法TRACER。
在面临各类数据损坏时,该方法于所有实验中均实现了最优,相对于现有的SOTA方法提升了高达+21.1%的决策性能,并在24组仅有单类数据损坏的实验中仍实现了16组的最优性能。
TRACER主要具有以下三点优势:
总的来说,该方法将所有类别的数据损坏视为行动价值函数(action-value function)中的不确定性,并使用所有类别的离线数据作为观测值,以估计行动价值函数的后验分布。
这显著增强了智能体对所有类别数据损坏的鲁棒性。
此外,考虑到受损数据通常会引起更高的不确定性和熵,该方法引入了基于熵的不确定性度量,进而能有效区分损坏数据和干净数据。
基于这类度量,该方法能调节并减弱损坏数据对智能体模型训练的负面影响,进而显著提高模型在干净测试环境中的鲁棒性和性能。
使用多种受损数据估计累积奖励函数(即动作值函数)会引入很高的不确定性,原因主要有两个方面:
下图为决策过程的概率图模型。实线连接的节点表示数据集中的数据,而虚线连接的Q值(即动作值、累积回报)不属于数据集。这些Q值通常是算法旨在估计的任务目标。
为了处理这类由多种数据损毁(即状态、动作、奖励、状态转移数据受损)导致的高不确定性问题,基于上图所示的概率图模型,作者提出利用数据集中的所有元素作为观测数据。
这样做的目的,是利用这些观测数据与累积奖励之间的高度相关性,来准确地识别动作值函数的不确定性。
TRACER的框架图如下所示。
单种类型数据元素存在损坏的部分实验结果见表2和表3。
而在单类数据损坏中,TRACER于24个实验设置里实现16组最优性能,可见TRACER面向小规模、单类数据损坏的问题也能有效地增强鲁棒性。
存在随机损坏时,TRACER在8个实验设置中获得了最高的平均得分。
同样地,单类元素存在对抗损坏时,TRACER在8个实验设置中也获得了最高的平均得分。
本论文作者杨睿是中国科学技术大学2019级硕博连读生,师从王杰教授、李斌教授,主要研究方向为强化学习、自动驾驶等。
他曾以第一作者在 NeurIPS、KDD 等顶级期刊与会议上发表论文两篇,曾获滴滴精英实习生(16/1000+)。
论文地址:
https://openreview.net/pdf?id=rTxCIWsfsD
GitHub:
https://github.com/MIRALab-USTC/RL-TRACER
文章来自于微信公众号“量子位”,作者“中科大杨睿”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md