一种自适应经验重放的深度强化学习训练优化方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种自适应经验重放的深度强化学习训练优化方法及装置
申请号:CN202411451164
申请日期:2024-10-17
公开号:CN119398241A
公开日期:2025-02-07
类型:发明专利
摘要
本发明公开了一种自适应经验重放的深度强化学习训练优化方法及装置,其通过构建求和树,可以高效地计算和更新样本的优先级,减少了传统优先经验重放中直接计算每个样本优先级的计算负担,并基于预测模型,可以在不直接计算所有样本的优先级的情况下,预测样本的优先级,减少计算负担;通过融合时间差分误差与奖励优先级,以实现经验池中样本优先级的自适应矫正减小采样偏差,从而有效提高了采样与训练效率。
技术关键词
训练优化方法 深度强化学习 样本 建立预测模型 回归算法 误差 模型更新 可读存储介质 构建预测模型 模块 节点 计算机 优化装置 处理器 终端设备 负担 存储器 矫正 指数 分支