摘要
本发明提供一种基于MAPPO算法的多列车动态调度方法及系统,涉及多列车动态调度技术领域,方法包括获取多列车运行状态信息,根据预训练的神经网络策略模型识别状态信息以生成离散动作决策;根据离散动作决策生成调整指令,根据调整指令计算新的运行状态信息以及当前决策步的复合奖励反馈并更新列车环境状态信息以进入下一决策步直至当前回合结束;根据当前回合的所有奖励判断当前回合对应的调度策略是否符合预设调度策略,若否,则返回执行获取多列车运行状态信息的步骤,直至符合预设调度策略以动态协同优化多列车调度。本申请解决了现有技术中的列车调度方法仍局限于单列车决策或局部竞争范式,缺乏协同全局调度能力的技术问题。