摘要
本发明公开了一种基于深度强化学习的机器人控制优化方法,首先初始化控制系统,构建经验回放缓冲池,并设置Actor网络策略函数、Critic网络权重、超参数及目标网络参数。随后,机器人根据Actor网络生成动作,执行后收集环境反馈,将状态转移元组存入缓冲池。接着,从中采样小批量数据,计算时间差分误差并据此更新网络参数,以最小化价值估计偏差,同时同步优化网络参数,最大化状态‑动作价值函数的期望值,提升控制性能。本发明融合多线程架构与深度强化学习技术,提升机器人控制的实时性、稳定性与泛化能力,有效解决非平稳环境下算法收敛性问题,降低调参与计算成本,增强复杂场景中长期稳定运行的鲁棒性与部署可行性。