PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!
来自主题: AI资讯
6578 点击 2023-12-02 18:43
PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!
这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证