摘要
本发明提出一种双臂机器人智能避障与路径规划方法,通过检测当前状态执行动作与环境交互时,障碍物越过机械臂中各模块的安全边界次数和各模块之间相互碰撞次数,并调节自适应奖惩函数权重,获取动作信息、交互后机械臂的关节角、机械臂各模块、障碍物等与目标点空间位置信息及奖励,并按自适应奖惩变化趋势进行三经验池采样生成软Q值指导Actor与Critic网络更新,检测机械臂的执行器末端是否同时以指定位姿到达目标区域或达到最大step,以判断当前状态是否继续与环境交互,检测是否到达最大训练轮数,以判断是否初始化机械臂、障碍物与目标点,将优化后的改进SAC算法部署到双臂机器人进行运动控制,解决了现有技术缺乏实时性和建模复杂的问题。