一种面向Kubernetes和Slurm算力融合的弹性调度方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向Kubernetes和Slurm算力融合的弹性调度方法
申请号:CN202410712651
申请日期:2024-06-04
公开号:CN118606018A
公开日期:2024-09-06
类型:发明专利
摘要
一种面向Kubernetes和Slurm算力融合的作业弹性调度方法,其步骤包括:1)通过统一的网关提交两种集群类型的作业;2)为Slurm作业进行调度请求的委托转发;3)将Kubernetes和Slurm的待调度作业都纳管到统一调度队列中等待调度;4)根据设定阈值以及调度器智能策略决定作业的资源分配和节点选择;5)将shadow pod的调度结果作为被映射Slurm作业的调度结果,根据结果进行作业下发和启动运行;6)作业停止并同步释放作业资源以及删除对应的shadow pod。本发明通过引入shadow pod概念作为Slurm作业在Kubernetes端的映射,并基于此设计了一种调度委托机制,能够在整个物理集群中弹性的调度Slurm作业和Kubernetes作业并保持作业资源隔离的正确性,提高了集群的整体资源利用率和作业的吞吐量。
技术关键词
弹性调度方法 并行作业 集群管理器 队列 资源配置信息 资源分配 节点 作业提交 网关 进程 调度器 模块 策略 周期性 阶段 插件 分区 语义