摘要
本发明公开一种基于模型引导离线强化学习的机器人控制方法及系统,该方法步骤包括:步骤S01.构建非线性机器人的线性增量模型以及构建Q函数;步骤S02.使用预先收集的训练数据迭代求解控制输入增量所对应的最优增量策略,同时学习得到线性增量模型;步骤S03.使用学习到的线性增量模型进行前向预测产生合成数据集,并加入至机器人数据集中形成增强数据集;步骤S04.使用增强数据集训练机器人的强化学习策略,以对机器人进行实时控制。本发明具有实现方法简单、控制效率以及精度高、适应性以及灵活性强等优点,能够缓解传统先仿真器训练后硬件部署的强化学习策略迁移差的问题,改善数据偏差问题。