一种大语言模型应用工作负载的调度方法、系统及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种大语言模型应用工作负载的调度方法、系统及设备
申请号:CN202511276990
申请日期:2025-09-09
公开号:CN120803669A
公开日期:2025-10-17
类型:发明专利
摘要
本申请提供了一种大语言模型应用工作负载的调度方法、系统及设备,涉及模型负载调度技术领域,该方法包括:将复合大语言模型应用建模为包含常规阶段、LLM阶段及动态阶段的有向无环图;通过贝叶斯网络建模有向无环图中各阶段间的执行相关性,动态预测未完成阶段的时长分布,结合LLM执行器的实时批处理大小对LLM阶段的时长预估值进行校准;基于信息熵量化调度各就绪阶段的不确定性减少量;采用ε‑greedy策略,结合JCT优先队列与不确定性缩减优先队列分配调度资源;将任务分派至对应执行器执行,重复上述过程直至所有作业完成。解决了现有技术中调度技术难以有效应对复合LLM应用的执行时间不确定性与结构不确定性的技术问题。
技术关键词
阶段 大语言模型 贝叶斯网络建模 信息熵 执行器 队列 动态 概率分布建模 校准 策略 解码 资源 调度系统 模块 定义 变量 计算机 电子设备 索引