摘要
本发明公开了一种自动驾驶决策模型的训练方法、设备、介质及产品,涉及自动驾驶技术领域,通过采用训练后的世界模型对决策模型进行迭代训练,将决策模型输出的驾驶动作及其对应的交通结构条件输入训练后的世界模型,根据得到的未来驾驶场景信息计算驾驶动作的奖励值,并根据奖励值更新决策模型,实现了决策模型的高效闭环优化,能够显著提升模型感知能力和决策能力,在训练中,通过未来驾驶场景构建基于道路的第一奖励值和基于道路使用者的第二奖励值,从道路和道路使用者两方面评估驾驶动作的优劣,优化驾驶动作,提高自动驾驶决策的安全性和可靠性,提升车辆在复杂交通环境中的自动驾驶性能。