LLaMA 2端到端推理打通!来自中国团队
LLaMA 2端到端推理打通!来自中国团队Buddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器,从而结合了 MLIR 和 PyTorch 的编译生态。
来自主题: AI技术研报
6048 点击 2023-11-23 20:33
Buddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器,从而结合了 MLIR 和 PyTorch 的编译生态。
这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证
AMD 的 Ryzen AI for Windows 是该公司基于 Zen 4 微架构的 Ryzen 7040 系列 APU 中内置的一个硬件单元。AMD 的 Vitis AI 为人工智能推理提供了强大的工具集,可与 TensorFlow、PyTorch 和 ONNX 等流行框架无缝集成。
目前,我国 AI 框架行业仍处于起步阶段,市场参与者主要有两大派系,分别是国外的 Google-TensorFlow 和 Meta-PyTorch 为代表的双寡头,以及国内以华为 -Mindspore 和百度 PaddlePaddle 为代表的领先企业。