摘要
本发明公开了一种面向RAG的嵌入服务弹性部署方法,属于计算机资源配置技术领域。该方法首先获取适用于RAG场景的嵌入模型并构建嵌入服务,通过自动化资源分析批量测试不同资源配置参数,筛选出满足服务质量要求的最优资源配置;其次集成RPS监控与动态批处理机制,结合GPU资源碎片化优化算法与三级候选GPU调度策略;随后根据推理请求负载触发混合扩缩容机制,形成协同调度;最终通过轮询机制分发推理请求并持续优化服务性能。本发明通过自动化资源分析、GPU资源碎片化优化与混合扩缩容策略的协同作用,可显著提升GPU资源利用率与嵌入服务的性能,有效支撑RAG场景下高并发、低延迟的推理需求。