摘要
本申请提供一种基于知识加速的行动设备的决策方法及系统。在行动设备行进过程的初始阶段,行动设备主要依靠专家控制行动设备的先验知识来进行行动决策,知识导向的第一动作指令占据主导地位,确保了行动设备的基本操作安全与效率。随着强化学习算法通过与环境的交互逐渐积累经验,并不断调整和优化决策策略,由强化学习算法输出的第二动作指令权重逐步提升,而依赖于先验知识的第一动作指令权重相应降低,直到行动设备的决策过程完全由强化学习算法自主驱动。通过这种动态融合先验知识和实时学习的策略,本申请不仅显著提高了行动设备在复杂环境中的自主决策能力,而且有效缩短了学习周期,并降低了因试错带来的操作风险。