清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐 清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐 关键词: AI,MixQ,模型训练,人工智能 一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍! 清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。 MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞吐。 来自主题: AI资讯 3497 点击 2024-10-21 14:15