摘要
本发明提供面向复杂场景的AI大模型轻量化部署方法,涉及边缘计算技术领域,所述方法包括:基于注意力头重要性评分对预训练Transformer网络执行结构化剪枝,根据输入张量熵值动态稀疏化前馈网络激活状态,采用动态混合精度量化,获得剪枝量化后的网络参数;将剪枝量化后的网络参数部署至边缘计算设备,通过异构计算调度器将特征提取算子分配至神经网络处理器,分类算子卸载至多核中央处理器;结合虚拟内存分页机制管理片上存储器,利用直接内存访问控制器实现零拷贝数据传输,输出推理结果张量。本发明实现大模型在资源受限边缘节点的高效和可靠运行。