摘要
本发明主要用于智能机器人技术领域。本发明公开了一种因果经验回放的多智能体控制方法、装置、设备及介质,该方法包括:获取多个智能体执行集群编队任务时采集到的经验数据集,经验数据集包括动作向量子集和奖励值子集;基于动作向量子集和奖励值子集,生成因果图;根据对每个动作向量进行调节的结果确定每个动作向量的权重值;根据每个权重值对动作向量子集进行更新,并利用动作向量子集更新后的经验数据集对预设的控制策略模型进行训练;基于训练后的控制策略模型生成的控制策略,控制多个智能体执行集群编队任务。本申请能够增强智能体的深度学习能力并提高智能体决策的可解释性。