摘要
本公开实施例公开了一种自动驾驶方法、装置、电子设备、存储介质和程序产品,基于锚点轨迹引导目标车辆的预测驾驶轨迹,并将预测驾驶轨迹作为基础驾驶策略,为目标车辆的自车驾驶提供基础的参考轨迹,解决了相关技术中行为克隆在闭环部署中的分布偏移问题,而通过离线驾驶参数和第一驾驶参数来预测多个第二驾驶参数(包括但不限于预测鸟瞰图状态、预测操作动作及动作奖励信号),以将该多个第二驾驶参数作为备选驾驶策略,再通过预设正则惩罚算法、评论家算法和基础驾驶策略(预测驾驶轨迹)来确定备选驾驶策略的好坏,以确定出更安全的驾驶策略,实现离线强化学习,解决强化学习存在的计算成本高、训练效率低、策略稳健性不足等问题。