AI TNT— 让一部分先用AI实现商业化

这两天，FlashAttention团队推出了新作：一种给Transformer架构大模型推理加速的新方法，最高可提速8倍。该方法尤其造福于长上下文LLM，在64k长度的CodeLlama-34B上通过了验证

来自主题: AI技术研报

2625 点击 2023-10-18 14:43