摘要
本发明公开了一种陆战无人装备的模拟训练方法、装置及设备,包括:创建多智能体无人装备的陆战对抗场景,定义陆战对抗场景中红方智能体和蓝方智能体的场景信息、观测空间、动作空间、胜负条件以及奖励函数;构建多智能体强化学习的网络训练框架,包括MAPPO网络以及QMIX网络,得到多智能体强化学习模型;其中,MAPPO网络用于提供即时反馈和策略调整的梯度信息;QMIX网络用于实现多智能体之间的协作和全局策略的评估;通过初始化和更新MAPPO网络以及QMIX网络的网络参数,对多智能体强化学习模型进行迭代训练,直到满足预设条件时停止训练,得到多智能体协作系统。