摘要
本发明属于人工智能技术领域,提供了一种多智能体的内生化模型训练方法及系统,其取样任务,并提取各个Agent的嵌入表示及执行任务的元特征向量,结合各个Agent的嵌入表示、执行任务的元特征向量及自监督图神经网络生成每对Agent的协作概率,组成Agent协作计划矩阵;根据Agent协作计划矩阵分配相应的通信资源,各Agent基于分配的通信资源在交互总线上进行异步消息互动得到各Agent输出分布,将各Agent输出分布映射为全局奖励向量和最终任务的目标。实现了端到端可微的多智能体协作优化,显著提升了模型的泛化能力和资源利用率。