摘要
本发明涉及路径规划技术领域,尤其涉及基于神经元弹性学习和多Q值策略的路径规划方法,包括构建移动机器人在未知环境中的路径规划,以Actor‑Critic网络进行策略学习;初始化ActorNetwork和Critic Network网络参数;通过对ActorNetwork中每一层的神经元进行主次功能区分,删除次神经元并随机赋值,保留主神经元所学;Critic Network中使用多Q值并选择最小的两个Q值取平均作为策略评估目标。本发明提出基于神经元弹性学习和多Q值策略的移动机器人路径规划方法,以解决现有深度强化学习路径规划算法无法在缩小对缓解漂移的修复时间的同时减小Q值高估问题的局限。