摘要
本发明公开了一种基于隐式时间刻度强化学习的自动驾驶车辆决策方法,包括基于隐式时间刻度的决策模型、改进的强化学习探索方法、基于规则和学习的移动方法以及智能环境车辆模型;基于隐式时间刻度的决策模型将时间刻度信息以隐式的方法导入状态价值表,从而提高决策行为的延续性;改进的强化学习探索方法使用基于预设策略的探索方法、基于反向传播的值表更新方法和基于动量法的局部最优点突破对强化学习的探索效率进行了改进;基于规则和学习的移动方法和智能环境车辆模型可以建立仿真环境对本发明决策的有效性和延续性进行验证。本发明将时间信息隐于状态价值表中,提高了车辆的决策延续性与安全性。