摘要
本发明公开了一种基于安全强化学习的配电网供电恢复方法,首先针对配电网供电恢复问题特点构建了马尔科夫决策过程MDP,包括状态、动作、状态转移概率、奖励函数和折扣因子;其次,基于所构建的MDP,搭建安全强化学习模型以求解该MDP,所述安全强化学习模型包括HSAC算法、无效动作屏蔽模块和安全校核层;最后,对安全强化学习模型进行离线训练,并利用训练好的安全强化学习模型对配电网实时场景的供电恢复问题进行递推求解,以输出最优供电恢复决策方案。本发明通过引入无效动作屏蔽模块和安全校核层,有效缩小了动作空间,确保模型生成的决策满足关键安全约束,提升了供电恢复的安全性的同时,加速了模型学习的进程。