
清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用
清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用清华大学朱军教授团队提出SageAttention3,利用FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可行性,在微调中实现了无损性能。
来自主题: AI技术研报
6094 点击 2025-07-08 12:08
清华大学朱军教授团队提出SageAttention3,利用FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可行性,在微调中实现了无损性能。
清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。
今日,AAAI 公布了 2024 年度的 Fellow 评选结果,共 12 位学者入选,其中包括清华大学教授朱军。