AI资讯新闻榜单内容搜索-FlashAtten

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: FlashAtten

为什么BF16的FlashAttention会把训练「炸掉」？清华首次给出机制解释，用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」？清华首次给出机制解释，用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」？清华首次给出机制解释，用极简改动稳住训练

一句话总结：社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了：在 BF16 等低精度训练里，FlashAttention 不是随机出 bug，而是会在特定条件下触发有方向的数值偏置，借助注意力中涌现的相似低秩更新方向被持续放大，最终把权重谱范数和激活推到失控，导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改，实测能显著稳定训练。

来自主题: AI技术研报

5606 点击 2026-03-04 13:49

FlashAttention-4震撼来袭，原生支持Blackwell GPU，英伟达的护城河更深了？

FlashAttention-4震撼来袭，原生支持Blackwell GPU，英伟达的护城河更深了？

FlashAttention-4震撼来袭，原生支持Blackwell GPU，英伟达的护城河更深了？

在正在举办的半导体行业会议 Hot Chips 2025 上，TogetherAI 首席科学家 Tri Dao 公布了 FlashAttention-4。

来自主题: AI技术研报

7974 点击 2025-08-27 12:16

清华第三代Sage注意力发布！提速5倍，精度不降，训推都能用

清华第三代Sage注意力发布！提速5倍，精度不降，训推都能用

清华第三代Sage注意力发布！提速5倍，精度不降，训推都能用

清华大学朱军教授团队提出SageAttention3，利用FP4量化实现推理加速，比FlashAttention快5倍，同时探索了8比特注意力用于训练任务的可行性，在微调中实现了无损性能。

来自主题: AI技术研报

8022 点击 2025-07-08 12:08

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

来自主题: AI技术研报

10467 点击 2024-10-19 14:15

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

用 FlexAttention 尝试一种新的注意力模式。

来自主题: AI资讯

9135 点击 2024-08-10 18:05

英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

740 TFLOPS！迄今最强 FlashAttention 来了。

来自主题: AI技术研报

9917 点击 2024-07-12 17:45

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

时隔一年，FlashAttention又推出了第三代更新，专门针对H100 GPU的新特性进行优化，在之前的基础上又实现了1.5～2倍的速度提升。

来自主题: AI技术研报

9951 点击 2024-07-12 16:57

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级，比标准注意力快16倍

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级，比标准注意力快16倍

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级，比标准注意力快16倍

大模型训练推理神作，又更新了！

来自主题: AI资讯

10038 点击 2024-07-12 15:39

斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快

斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快

斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快

AI算力资源越发紧张的当下，斯坦福新研究将GPU运行效率再提升一波——

来自主题: AI技术研报

11218 点击 2024-06-06 18:02

Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%

Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%

Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%

Hyena处理长序列输入比FlashAttention速度高100倍！最新发布的StripedHyena模型可能成下一代AI架构的新标准？

来自主题: AI资讯

8039 点击 2024-01-02 14:57

上一页当前第1页,共2页下一页