摘要
本发明公开了一种基于渐进起草树的大语言模型推理加速方法及系统,所述方法包括:构建初始起草树,初始起草树的根节点关联已解码的上下文序列,其余节点通过随机初始化生成扰动词元;基于节点之间的依赖关系设置注意力掩码和位置编码,使得每个节点仅能关注其所在路径上的前序节点;利用大语言模型对初始起草树进行推理,生成草稿词元,并根据草稿词元扩展起草树及更新候选池;通过预设宽度约束和深度约束对扩展后的起草树进行剪枝;从候选池中提取候选草稿树。本发明通过将传统自回归的单步预测任务转化为并行的起草和验证过程,提出基于渐进起草树的草稿生成机制,在保持原始的模型架构和参数的情况下实现了高效的推理加速。