AI资讯新闻榜单内容搜索-SageAttent

清华第三代Sage注意力发布！提速5倍，精度不降，训推都能用

清华大学朱军教授团队提出SageAttention3，利用FP4量化实现推理加速，比FlashAttention快5倍，同时探索了8比特注意力用于训练任务的可行性，在微调中实现了无损性能。

来自主题: AI技术研报

6118 点击 2025-07-08 12:08

随着大型模型需要处理的序列长度不断增加，注意力运算（Attention）的时间开销逐渐成为主要开销。

来自主题: AI技术研报

7234 点击 2025-06-19 10:47

大模型中，线性层的低比特量化已经逐步落地。然而，对于注意力模块，目前几乎各个模型都还在用高精度（例如 FP16 或 FP32）的注意力运算进行训练和推理。并且，随着大型模型需要处理的序列长度不断增加，Attention（注意力运算）的时间开销逐渐成为主要开销。

来自主题: AI技术研报

6802 点击 2024-12-27 09:44

来自主题: AI技术研报

8777 点击 2024-10-19 14:15