一种面向RAG的嵌入服务弹性部署方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向RAG的嵌入服务弹性部署方法
申请号:CN202511368928
申请日期:2025-09-24
公开号:CN120872615B
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种面向RAG的嵌入服务弹性部署方法,属于计算机资源配置技术领域。该方法首先获取适用于RAG场景的嵌入模型并构建嵌入服务,通过自动化资源分析批量测试不同资源配置参数,筛选出满足服务质量要求的最优资源配置;其次集成RPS监控与动态批处理机制,结合GPU资源碎片化优化算法与三级候选GPU调度策略;随后根据推理请求负载触发混合扩缩容机制,形成协同调度;最终通过轮询机制分发推理请求并持续优化服务性能。本发明通过自动化资源分析、GPU资源碎片化优化与混合扩缩容策略的协同作用,可显著提升GPU资源利用率与嵌入服务的性能,有效支撑RAG场景下高并发、低延迟的推理需求。
技术关键词
多处理器 资源配置参数 策略 管理中心 批量 资源分配 资源配置技术 容器 端口 动态 钩子技术 线程监控 设备架构 轮询机制 队列 配置系统 算法