摘要
本发明涉及智能决策技术领域,公开了基于强化学习的智能决策支持方法。该方法包括获取目标决策场景下含决策动作序列、环境状态序列及对应即时奖励信号的历史交互数据集合;将该数据集合输入状态特征提取网络进行时空特征编码,生成具时序关联性的状态特征向量集合;基于该集合构建决策动作空间映射表,表中记录各状态特征向量对应的候选决策动作及预期累积奖励;采用策略梯度算法对映射表动态更新,生成优化后的策略梯度参数集合;依此参数集合构建实时决策支持引擎,该引擎可响应环境状态变化并输出最优决策动作。该方法适配动态决策场景,助力高效输出贴合需求的决策结果。