摘要
本发明提出一种基于时序建模的多场景自动驾驶决策方法,该方法在仿真平台中构建驾驶场景,采用自车引导的特征聚合机制,关注关键交通参与者并保留全局信息。通过强化学习算法训练多个策略模型并采集状态、动作与奖励数据,引入奖励重构机制实现多场景奖励对齐,并注入符合人类驾驶偏好的规避行为信号,构建统一高质量决策数据集。随后将马尔可夫决策过程转化为时序建模任务,结合GRU与Transformer模块构建高效的时序策略模型,输出高层次行为指令,在不牺牲单场景决策能力的基础上,实现多场景统一策略建模。模型可通过指导速度嵌入轨迹,便于部署至真实自动驾驶系统。相较于传统方法,本发明实现了多场景决策一体化,具备更强的决策能力与部署适应性。