
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。
来自主题: AI资讯
5119 点击 2023-12-21 10:42
上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。
用大模型解决困扰数学家60多年的问题,谷歌DeepMind最新成果再登Nature。
大语言模型(LLM)被越来越多应用于各种领域。然而,它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则:每个词(token)的生成都需要进行一次前向传播,需要访问数十亿至数千亿参数的 LLM。这导致传统自回归解码的速度较慢。
PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!
只需不到9行代码,就能在CPU上实现出色的LLM推理性能。英特尔® Extension for Transformer创新工具包中的LLM Runtime为诸多模型显著降低时延,且首个token和下一个token的推理速度分别提升多达40倍和2.68倍,还能满足更多场景应用需求。
这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证
麻省理工学院计算机科学与人工智能实验室(CSAIL)研究团队发现,多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。