摘要
本申请公开了一种基于长短期记忆网络的飞机回收动态调度方法,涉及人工智能与自动化调度领域,该方法包括:基于策略网络、目标网络以及优先经验回放存储器,在每个并行的飞机回收模拟环境中,通过循环策略过程生成回收轨迹,在每个决策步中按照所述回收轨迹回收飞机;当优先经验回放存储器中的样本量满足预设批次数量时,采样一个批次的经验数据,利用目标网络计算经验数据中任一经验样本下一状态的Q值,更新策略网络的参数,同步更新所述目标网络的参数,记录每次更新后的网络更新参数,并根据更新后的目标网络和策略网络确定飞机回收动态调度模型,以执行回收任务,本申请能够深入理解时序动态、实现高效学习并适应随机环境的智能调度回收。