摘要
本申请实施例提供了一种车辆资源配送的控制方法和装置、存储介质和电子设备,其中,该方法包括:基于目标区域当前的区域采集数据,生成当前环境状态特征,并将当前环境状态特征转换为当前环境状态;将当前环境状态输入到当前策略网络,得到当前策略网络输出的初始配送路径,其中,当前策略网络用于表示在环境状态下,采用动作空间中的不同动作的概率,动作空间中的一个动作是指配送车辆选择一组节点中对应的节点进行资源配送;对初始配送路径循环执行破坏操作和修复操作,直到满足循环结束条件,得到目标配送路径,并控制配送车辆按照目标配送路径执行资源配送任务。通过本申请,可以解决相关技术中的路径规划方法存在的路径质量低的问题。