摘要
一种未知危险场景的获取和控制方法、存储介质和电子装置,所述方法包括:步骤10、扩展根节点为自动驾驶中未知危险场景的状态的搜索树;步骤20、在检测到搜索树中有节点更新后,对扩展的每个节点,均执行步骤21至步骤23,直至达到终止条件为止,输出搜索过程中发现的全部新的未知危险场景参数,其中:步骤21、对扩展得到的节点对应的状态下进行动作仿真,以此类推,直到出现未知危险场景的节点为止或满足预设终止条件为止;步骤22、在搜索树中,利用得到的仿真奖励,更新路径上所有节点的期望回报值;步骤23、选择测试状态和测试动作,获取反馈结果,利用反馈结果,更新测试状态与测试动作对应的Q值,得到获取未知危险场景的目的。