摘要
一种基于强化学习的维修方案生成系统、方法及程序产品,属于人工智能技术领域。系统中N个子代理分成P个子代理组,每个子代理组的子代理分别根据主代理下发的维修方案查询请求标签的P种模态信息在异构知识图谱的不同模态层中执行检索动作并将其检索结果报告给主代理,主代理分别评估P个子代理组的各子代理的检索结果与维修方案查询请求标签的P个模态之间的匹配度以及各个子代理组最优的检索结果的汇总结果与维修方案查询请求标签的匹配度,根据匹配度给每个子代理的奖励值并广播各子代理的奖励值、检索动作及检索结果;各子代理根据接收的所有子代理的奖励值、检索动作及检索结果以优化其检索控制策略。通过本发明生成的维修方案全面性较高。