
斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快
斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快AI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波——
来自主题: AI技术研报
9468 点击 2024-06-06 18:02
AI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波——
众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。
以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。
Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。
来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。