AI资讯新闻榜单内容搜索-Attention

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

5642 点击 2024-05-12 15:49

Mamba时代来了？

来自主题: AI技术研报

6289 点击 2024-03-29 15:09

以大规模著称的Transformer，在实际应用中的高算力和高成本，让不少中小型企业望而却步。

来自主题: AI资讯

6206 点击 2024-01-28 12:05

Lightning Attention-2 是一种新型的线性注意力机制，让长序列的训练和推理成本与 1K 序列长度的一致。

来自主题: AI技术研报

2139 点击 2024-01-18 18:27

Hyena处理长序列输入比FlashAttention速度高100倍！最新发布的StripedHyena模型可能成下一代AI架构的新标准？

来自主题: AI资讯

6375 点击 2024-01-02 14:57

前段时间，Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区，其架构与 GPT-4 非常相似，很多人将其形容为 GPT-4 的「缩小版」。

来自主题: AI技术研报

5128 点击 2024-01-01 11:08

来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。

来自主题: AI资讯

8051 点击 2023-12-25 16:36

这两天，FlashAttention团队推出了新作：一种给Transformer架构大模型推理加速的新方法，最高可提速8倍。该方法尤其造福于长上下文LLM，在64k长度的CodeLlama-34B上通过了验证

来自主题: AI技术研报

3171 点击 2023-10-18 14:43