摘要
本发明提供应用于智能对话大模型的推理加速优化方法及系统,属于大模型技术领域,首先获取待推理对话序列及推理环境配置信息,其中待推理对话序列包含用户实时输入文本和历史交互语句链,推理环境配置信息涵盖运算节点负载状态和缓存资源占用信息,接着对两者进行联合流程解构处理,得到推理节点依赖图谱和资源弹性需求清单,再基于上述结果执行推理链路优化处理,生成推理加速执行方案,包含推理节点并行调度规则和资源预分配策略,依据该推理加速执行方案调控推理运算流程,生成加速处理后的对话响应序列,最后将加速处理后的对话响应序列推送至用户交互终端完成智能对话输出,从而有效提升智能对话大模型的推理速度,优化对话交互体验。