因果经验回放的多智能体控制方法、装置、设备及介质

申请号：CN202411893295

申请日期：2024-12-20

公开号：CN119937542A

公开日期：2025-05-06

类型：发明专利

摘要

本发明主要用于智能机器人技术领域。本发明公开了一种因果经验回放的多智能体控制方法、装置、设备及介质，该方法包括：获取多个智能体执行集群编队任务时采集到的经验数据集，经验数据集包括动作向量子集和奖励值子集；基于动作向量子集和奖励值子集，生成因果图；根据对每个动作向量进行调节的结果确定每个动作向量的权重值；根据每个权重值对动作向量子集进行更新，并利用动作向量子集更新后的经验数据集对预设的控制策略模型进行训练；基于训练后的控制策略模型生成的控制策略，控制多个智能体执行集群编队任务。本申请能够增强智能体的深度学习能力并提高智能体决策的可解释性。

技术关键词

控制策略模型智能体控制方法集群聚类序列数据体控制装置智能机器人技术节点矩阵精度可读存储介质关系电子设备变量效应处理器模块