一种自适应经验重放的深度强化学习训练优化方法及装置

申请号：CN202411451164

申请日期：2024-10-17

公开号：CN119398241A

公开日期：2025-02-07

类型：发明专利

摘要

本发明公开了一种自适应经验重放的深度强化学习训练优化方法及装置，其通过构建求和树，可以高效地计算和更新样本的优先级，减少了传统优先经验重放中直接计算每个样本优先级的计算负担，并基于预测模型，可以在不直接计算所有样本的优先级的情况下，预测样本的优先级，减少计算负担；通过融合时间差分误差与奖励优先级，以实现经验池中样本优先级的自适应矫正减小采样偏差，从而有效提高了采样与训练效率。

技术关键词

训练优化方法深度强化学习样本建立预测模型回归算法误差模型更新可读存储介质构建预测模型模块节点计算机优化装置处理器终端设备负担存储器矫正指数分支