
清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用
清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用清华大学朱军教授团队提出SageAttention3,利用FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可行性,在微调中实现了无损性能。
来自主题: AI技术研报
6174 点击 2025-07-08 12:08
清华大学朱军教授团队提出SageAttention3,利用FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可行性,在微调中实现了无损性能。
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。
首个FP4精度的大模型训练框架来了,来自微软研究院!
老黄在CES上发布的迷你超算Project DIGITS,开启了AI超算的PC时刻。 但随即也引发了不小争议,还遭到了大佬的贴脸嘲讽。
今年GTC大会上,英伟达推出了地表最强Blackwell计算平台、NIM推理微服务、Omniverse Cloud API等惊喜新品。其中Blackwell GPU具有2080亿个晶体管,AI算力直接暴涨30倍。单芯片训练性能(FP8)是Hopper架构的2.5 倍,推理性能(FP4)是Hopper架构的5倍。具有第5代NVLink互连,并且可扩展至576个GPU。