基于低秩微调的大语言模型端云协同推理系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于低秩微调的大语言模型端云协同推理系统
申请号:CN202511253301
申请日期:2025-09-03
公开号:CN120806170A
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了一种基于低秩微调的大语言模型端云协同推理系统,属于端边云计算的推理优化技术领域。建立端云协同推理架构,在离线阶段,云侧基于不同下游任务的训练数据对大语言模型进行参数微调;在线阶段,通过“变分自编码器‑高斯混合模型”聚类对用户请求进行分类,判断端侧缓存中是否存在匹配当前任务的低秩适配器,若是,则在端侧执行推理;否则,将该任务转发至云侧。当该架构处理过若干用户请求后,基于Mamba模型分析用户历史请求和缓存状态,动态更新端侧低秩适配器库。实时监控端云负载与推理延迟,根据任务重复率增量下发新适配器至端侧。本发明实现系统动态平衡,在降低计算和存储开销的同时,确保了系统的高效性和适应性。
技术关键词
端云协同 适配器 推理系统 缓存替换策略 高斯混合模型 推理架构 状态空间模型 矩阵 编码器 损失函数取值 智能分类器 动态更新 阶段 残差系数 预训练模型 分类阈值 离线 数据 学习算法 模型更新