摘要
本发明属于人工智能技术领域,提供了一种基于强化学习的月结任务智能调度方法及系统,其技术方案为基于获取的月结任务多维度状态特征数据构建得到时序状态向量;对时序状态向量进行编码得到时序特征,构建任务依赖图,提取任务依赖图全局特征,将时序特征和任务依赖图全局特征进行融合得到融合特征,基于融合特征生成动作概率分布;基于动作概率分布,引入硬约束和软约束,构建多目标奖励函数,基于近端策略优化算法对强化学习智能体进行优化,基于优化的强化学习智能体输出动作策略;将优化的强化学习智能体输出动作策略转化为具体的月结任务调度指令。实现对复杂财务月结流程的动态、自适应、全局优化调度。