基于强化学习的智能决策支持方法

申请号：CN202511543046

申请日期：2025-10-27

公开号：CN121009928A

公开日期：2025-11-25

类型：发明专利

摘要

本发明涉及智能决策技术领域，公开了基于强化学习的智能决策支持方法。该方法包括获取目标决策场景下含决策动作序列、环境状态序列及对应即时奖励信号的历史交互数据集合；将该数据集合输入状态特征提取网络进行时空特征编码，生成具时序关联性的状态特征向量集合；基于该集合构建决策动作空间映射表，表中记录各状态特征向量对应的候选决策动作及预期累积奖励；采用策略梯度算法对映射表动态更新，生成优化后的策略梯度参数集合；依此参数集合构建实时决策支持引擎，该引擎可响应环境状态变化并输出最优决策动作。该方法适配动态决策场景，助力高效输出贴合需求的决策结果。

技术关键词

智能决策支持策略梯度算法特征提取网络长短期记忆网络动态更新样本智能决策技术时序依赖关系序列流水线数据映射关系表参数场景滑动窗口