一种基于上下文状态和动作权重的强化学习方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于上下文状态和动作权重的强化学习方法
申请号:CN202411102954
申请日期:2024-08-13
公开号:CN118627574B
公开日期:2024-10-11
类型:发明专利
摘要
本发明涉及智能体强化学习技术领域,尤其涉及一种基于上下文状态和动作权重的强化学习方法,该方法包括以下步骤:在基于Mujoco框架的连续动作控制环境中,获取机器人与环境进行交互所产生的状态数据信息;基于状态数据信息对执行动作预测模型进行训练以及测试,将由环境反馈的实时状态信息输入执行动作预测模型中输出对应预测的执行动作。本发明加强了网络模型对未来状态的表征能力,可以开阔网络模型在智能体与环境交互过程中的全局视野,以帮助网络模型更好地捕捉到未来状态信息和状态之间的关联,提高了样本数据的利用效率,增强了强化学习方法,使得在连续动作控制环境任务中取得了理想的效果。
技术关键词
强化学习方法 在线状态信息 动作预测模型 强化学习框架 实时状态信息 强化学习算法 网络 模块 数据 强化学习技术 图像 三元组 机器人 生成动作 并联结构 标志 程序 矩阵 视野