一种自动驾驶决策模型的训练方法、设备、介质及产品

申请号：CN202511241531

申请日期：2025-09-02

公开号：CN120781921B

公开日期：2025-12-05

类型：发明专利

摘要

本发明公开了一种自动驾驶决策模型的训练方法、设备、介质及产品，涉及自动驾驶技术领域，通过采用训练后的世界模型对决策模型进行迭代训练，将决策模型输出的驾驶动作及其对应的交通结构条件输入训练后的世界模型，根据得到的未来驾驶场景信息计算驾驶动作的奖励值，并根据奖励值更新决策模型，实现了决策模型的高效闭环优化，能够显著提升模型感知能力和决策能力，在训练中，通过未来驾驶场景构建基于道路的第一奖励值和基于道路使用者的第二奖励值，从道路和道路使用者两方面评估驾驶动作的优劣，优化驾驶动作，提高自动驾驶决策的安全性和可靠性，提升车辆在复杂交通环境中的自动驾驶性能。

技术关键词

驾驶决策模型车辆轨迹预测环境状态信息场景非易失性存储介质地图对象车道交通自动驾驶技术网络存储计算机程序计算机程序产品视野视频样本路程