摘要
本发明提供一种用于训练四足机器人的强化学习方法,包括通过仿真平台获取机器人和动态平台的观测值,构建包括动态平台仿真环境、估计器、Actor‑Critic网络的强化学习框架;将训练好的策略网络Actor和估计器的参数部署到机器人的控制系统作为机器人的深度强化学习模型;在真实运行过程中,利用实时采集的当前时刻状态信息预测机器人的关节目标角度值作为期望位置输入PID控制器控制机器人关节的扭矩。本发明通过强化学习训练机器人学习不同环境状态下的最优决策策略,从而提升任务完成效率与鲁棒性;并提高在动态平台上的运动性能;通过奖励鼓励四足机器人按照速度指令在动态平台上移动并保持相对稳定的姿势和流畅的动作。