摘要
本发明公开了基于世界模型的决策模型优化方法、设备、介质及产品,涉及自动驾驶技术领域,通过第一阶段训练世界模型理解结构化交通条件,提升世界模型理解复杂交通场景的能力,再训练世界模型根据结构化交通条件和驾驶动作预测未来驾驶场景,提升环境预测和生成质量;基于训练好的世界模型和决策模型协同构建基于世界模型的闭环优化框架,将决策模型输出的驾驶动作及其对应的结构化交通条件输入世界模型,根据得到的未来驾驶场景序列计算驾驶动作的奖励值,并根据奖励值更新决策模型,实现了决策模型的高效闭环优化,能够显著提升模型感知能力和决策能力,提高自动驾驶决策的安全性和可靠性,提升车辆在复杂交通环境中的自动驾驶性能。