摘要
本发明提供一种基于样本学习的机械指令控制方法及系统,方法包括建立机械臂的环境模型;观测机械臂的自身状态,并选择自身状态中的当前状态的机械臂动作与环境模型进行交互以得到奖励值;构建基于神经网络的安全评估网络,并根据安全评估网络生成安全阈值,并将安全阈值纳入奖励值;采用IQL结合注意力机制输出机械臂的历史动作;通过历史动作提取通道中的隐式策略结合注意力机制筛选出历史动作中的最优动作,并通过动态混合控制以得到最终动作的融合输出;基于奖励值生成候选动作,并结合最终动作的融合输出以生成机械臂的安全动作。本发明能够避免机械臂控制在复杂情况下出现性能下降的问题,且能够灵活且高效的进行机械臂控制。