ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024
2783点击    2024-10-20 11:43

机器人控制和自动驾驶的离线数据损坏问题有解了!


中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性。


论文发表在CCF-A类人工智能顶级会议NeurIPS 2024。



现实世界的离线数据集(如机器人控制、自动驾驶等)常常因传感器故障或恶意攻击而受到数据损坏(如数据带有噪声或对抗性攻击)的影响。


尽管现有离线强化学习(offline RL)方法在鲁棒性方面已取得了进展,但它们仍难以处理因离线数据的各类元素(即状态、动作、奖励和转移动态)均部分损坏所引入的高不确定性。


作者针对离线数据的各类元素均有受损这一复杂的实际问题,提出了一种鲁棒的变分贝叶斯推断方法TRACER


在面临各类数据损坏时,该方法于所有实验中均实现了最优,相对于现有的SOTA方法提升了高达+21.1%的决策性能,并在24组仅有单类数据损坏的实验中仍实现了16组的最优性能


TRACER主要具有以下三点优势:


  • TRACER首次将贝叶斯推断引入到抗损坏的离线强化学习(corruption-robust offline RL)中。通过将所有离线数据作为观测值,TRACER捕捉了由各类损坏数据所导致的动作价值函数中的不确定性。
  • 通过引入基于熵的不确定性度量,TRACER能够区分损坏数据和干净数据,从而调控并减弱损坏数据对智能体模型训练的影响,以增强鲁棒性。
  • 作者在机器人控制(MuJoCo)和自动驾驶(CARLA)仿真环境中进行了系统性地测试,验证了TRACER在各类离线数据损坏、单类离线数据损坏的场景中均显著提升了智能体的鲁棒性,超出了多个现有的SOTA方法。


背景与问题





方法介绍


总的来说,该方法将所有类别的数据损坏视为行动价值函数(action-value function)中的不确定性,并使用所有类别的离线数据作为观测值,以估计行动价值函数的后验分布。


这显著增强了智能体对所有类别数据损坏的鲁棒性


此外,考虑到受损数据通常会引起更高的不确定性和熵,该方法引入了基于熵的不确定性度量,进而能有效区分损坏数据和干净数据


基于这类度量,该方法能调节并减弱损坏数据对智能体模型训练的负面影响,进而显著提高模型在干净测试环境中的鲁棒性和性能。


动机


使用多种受损数据估计累积奖励函数(即动作值函数)会引入很高的不确定性,原因主要有两个方面:


  • 一是多种类型的损毁会向数据集的所有元素引入较高的不确定性;
  • 二是每个元素与累积奖励(即动作值、Q值)之间存在明确的相关性关系。


下图为决策过程的概率图模型。实线连接的节点表示数据集中的数据,而虚线连接的Q值(即动作值、累积回报)不属于数据集。这些Q值通常是算法旨在估计的任务目标。



为了处理这类由多种数据损毁(即状态、动作、奖励、状态转移数据受损)导致的高不确定性问题,基于上图所示的概率图模型,作者提出利用数据集中的所有元素作为观测数据。


这样做的目的,是利用这些观测数据与累积奖励之间的高度相关性,来准确地识别动作值函数的不确定性。


基于受损数据的贝叶斯推断




基于熵的不确定性度量



算法架构


TRACER的框架图如下所示。




数据受损,依然保持鲁棒性




单种类型数据元素存在损坏的部分实验结果见表2和表3。


而在单类数据损坏中,TRACER于24个实验设置里实现16组最优性能,可见TRACER面向小规模、单类数据损坏的问题也能有效地增强鲁棒性。


存在随机损坏时,TRACER在8个实验设置中获得了最高的平均得分。



同样地,单类元素存在对抗损坏时,TRACER在8个实验设置中也获得了最高的平均得分。



作者简介


本论文作者杨睿是中国科学技术大学2019级硕博连读生,师从王杰教授、李斌教授,主要研究方向为强化学习、自动驾驶等。


他曾以第一作者在 NeurIPS、KDD 等顶级期刊与会议上发表论文两篇,曾获滴滴精英实习生(16/1000+)


论文地址:


https://openreview.net/pdf?id=rTxCIWsfsD


GitHub:


https://github.com/MIRALab-USTC/RL-TRACER


文章来自于微信公众号“量子位”,作者“中科大杨睿”




AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md