摘要
本申请提供了一种大语言模型应用工作负载的调度方法、系统及设备,涉及模型负载调度技术领域,该方法包括:将复合大语言模型应用建模为包含常规阶段、LLM阶段及动态阶段的有向无环图;通过贝叶斯网络建模有向无环图中各阶段间的执行相关性,动态预测未完成阶段的时长分布,结合LLM执行器的实时批处理大小对LLM阶段的时长预估值进行校准;基于信息熵量化调度各就绪阶段的不确定性减少量;采用ε‑greedy策略,结合JCT优先队列与不确定性缩减优先队列分配调度资源;将任务分派至对应执行器执行,重复上述过程直至所有作业完成。解决了现有技术中调度技术难以有效应对复合LLM应用的执行时间不确定性与结构不确定性的技术问题。