摘要
本方案公开了一种智能体集群路径规划模型的训练方法和装置,该方法包括:构建智能体在当前时间步的第一状态矩阵,将第一状态矩阵输入初始强化学习模型,预测各个智能体在下一个时间步的第二动作信息;基于第二状态矩阵、第一状态矩阵确定智能体集群执行本次任务的奖励得分;构建由目标四元组组成的时间序列数据,将时间序列数据输入各个局部Q网络中,生成局部Q值;将局部Q值通过混合Q网络组合成全局Q值;使用更新后的局部Q网络和混合Q网络继续进行训练,得到智能体集群路径规划模型。本方案的混合Q网络具备时序建模和注意力权重分配能力,各智能体独立决策,实现去中心化控制;采用时间序列数据学习时序依赖,使路径生成更具灵活性。