中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

4206点击 2025-03-31 15:16

在视觉强化学习中，许多方法未考虑序列决策过程，导致所学表征缺乏关键的长期信息的空缺被填补上了。

来自中科大的研究人员在信息瓶颈（Information Bottleneck）框架下，提出了一种新颖的鲁棒动作价值表征学习方法ROUSER。

作者从理论上证明了ROUSER能够使用学习到的鲁棒表征准确估计动作价值，从而避免了智能体在测试环境中的决策能力遭到削弱。

具体而言，ROUSER通过最大化表征与动作价值之间的互信息，来保留长期信息；

同时，最小化表征与状态-动作对之间的互信息，以滤除无关特征。

由于动作价值是未知的，ROUSER提出将状态-动作对的鲁棒表征分解为单步奖励和下一状态-动作对的鲁棒表征。

实验结果表明，在包括背景干扰与颜色干扰的12项任务中，ROUSER于其中的11项任务上优于多种当前的先进方法。

传统方法难以捕捉关键长期信息

视觉强化学习中的泛化问题近年来受到了广泛关注，其研究潜力在于使智能体具备处理现实复杂任务的能力，并能在多样化环境中表现良好。

这里的泛化能力是指智能体能够将其学到的策略直接应用于未知环境，即使这些环境中存在与训练阶段不同的视觉干扰（如动态背景或可控物体颜色变化）。

因此，具备良好泛化能力的智能体可以在面临未见干扰的环境时依然保持高性能执行任务，无需大量的重新训练。

尽管现有方法以数据增广、对比学习等技术增强了智能体面向环境视觉干扰的鲁棒性，但值得注意的是，这类研究往往仅聚焦于如何从视觉图像中提取鲁棒的、不随环境变化的信息，忽略了下游关键的决策过程。

这导致这些方法难以捕捉序列数据中关键的长期信息，而这正是视觉强化学习泛化能力的核心因素之一。

为了针对性地解决这类问题，作者在信息瓶颈（Information Bottleneck）框架下，提出了鲁棒动作价值表征学习方法（ROUSER），通过引入信息瓶颈来学习能有效捕捉决策目标中长期信息的向量化表征。

分解状态-动作对鲁棒表征

本文提出的ROUSER主要包括两个核心思路：

一是为了学习能有效捕捉决策目标中长期信息的向量化表征，ROUSER基于信息瓶颈框架，通过最大化表征与动作价值之间的互信息，来保留长期信息；

同时，最小化表征与状态-动作对之间的互信息，以滤除无关特征。

二是由于动作价值是未知的，无法直接最大化表征与动作价值之间的互信息，因此ROUSER提出将状态-动作对的鲁棒表征分解为仅包含单步奖励信息的表征和下一状态-动作对的鲁棒表征。

这样一来，可以借助已知的单步奖励，计算用于鲁棒表征学习的损失函数。

方法架构图如下所示：

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

为实现上述思路，ROUSER主要包括两个核心模块——奖励模型（Reward Model）和鲁棒损失（Robust Loss）。

其中奖励模型旨在学习仅包含单步奖励信息的表征。

具体来说，奖励模型基于信息瓶颈框架，最大化从状态-动作对中提取的奖励表征与单步奖励之间的互信息，同时最小化奖励表征与对应状态-动作对之间的互信息，从而引导模型学习仅包含奖励信息的表征。

鲁棒损失则旨在构建可计算的损失函数，学习能有效捕捉决策目标中长期信息的向量化表征。

基于对状态-动作对的鲁棒表征分解技术，构建递归式损失函数，仅利用奖励模型编码的表征即可直接计算该损失。

且该部分仅为损失函数的构建，并没有更改强化学习中批评家（Critic）模型的架构。最终旨在学习的向量化表征为批评家模型的中间层嵌入（Embedding）。

本文理论证明了ROUSER能够利用学习到的向量化表征准确估计决策目标，即动作价值。

基于这一理论结果，ROUSER能有效结合各类连续和离散控制的视觉强化学习算法，以提升其对动作价值估计的准确性，从而提升整体鲁棒性。

实验结果

在视觉强化学习泛化性研究的12个连续控制任务中，ROUSER于11个任务上取得了最优性能。

其中下图的6个任务是智能体面向物体动态颜色变化干扰的泛化性能。

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

下图的6个任务展示了智能体面向背景干扰的泛化性能。

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

ROUSER方法的一大特点是可以兼容离散控制任务，本文在Procgen环境中进行了相关实验。

如下表所示，当ROUSER与基于价值的VRL方法结合应用于非连续控制任务时，也能够提升智能体的泛化性能。

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

更多内容请参考原论文与项目主页。

论文第一作者杨睿，中国科学技术大学2019级硕博连读生，师从王杰教授、李斌教授，主要研究方向为强化学习、自动驾驶等。

论文地址：

https://openreview.net/pdf?id=PDtMrogheZ

文章来自于“量子位”，作者“ROUSER团队”。

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

AI ROUSER 模型训练人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI