AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3
AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3Falcon 方法是一种增强半自回归投机解码框架,旨在增强 draft model 的并行性和输出质量,以有效提升大模型的推理速度。Falcon 可以实现约 2.91-3.51 倍的加速比,在多种数据集上获得了很好的结果,并已应用到翼支付多个实际业务中。
来自主题: AI技术研报
5669 点击 2025-01-08 14:38