AI资讯新闻榜单内容搜索-FP8

DeepSeek开源通用矩阵乘法库，300行代码加速V3、R1，R2被曝五月前问世

DeepSeek 的开源周已经进行到了第三天（前两天报道见文末「相关阅读」）。今天开源的项目名叫 DeepGEMM，是一款支持密集型和专家混合（MoE）GEMM 的 FP8 GEMM 库，为 V3/R1 的训练和推理提供了支持，在 Hopper GPU 上可以达到 1350+ FP8 TFLOPS 的计算性能。

来自主题: AI资讯

8609 点击 2025-02-26 10:58

一文详解：DeepSeek 第三天开源的 DeepGEMM

DeepSeek 开源周的第三天，带来了专为 Hopper 架构 GPU 优化的矩阵乘法库 — DeepGEMM。这一库支持标准矩阵计算和混合专家模型（MoE）计算，为 DeepSeek-V3/R1 的训练和推理提供强大支持，在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。

来自主题: AI技术研报

7820 点击 2025-02-26 10:46

微软急刹车，被曝撤掉大波数据中心租赁！DeepSeek冲击，算力泡沫要破？

DeepSeek开源第二弹如期而至。这一次，他们把MoE模型内核库开源了，支持FP8专为Hopper GPU设计，低延迟超高速训练推理。

来自主题: AI资讯

10623 点击 2025-02-25 15:14

刚刚，DeepSeek开源DeepEP通信库，千亿MoE训推颠覆级创新！FP8狂飙，带飞GPU

DeepSeek开源第二弹如期而至。这一次，他们把MoE训推EP通信库DeepEP开源了，支持FP8专为Hopper GPU设计，低延迟超高速训练推理。

来自主题: AI技术研报

10705 点击 2025-02-25 14:43

一行代码训练成本再降30%，AI大模型混合精度训练再升级｜开源

FP8通过其独特的数值表示方式，能够在保持一定精度的同时，在大模型训练中提高训练速度、节省内存占用，最终降低训练成本。

来自主题: AI技术研报

4241 点击 2024-09-26 11:57

单卡跑Llama 70B快过双卡，微软硬生生把FP6搞到了A100里 | 开源

FP8和更低的浮点数量化精度，不再是H100的“专利”了！

来自主题: AI技术研报

8238 点击 2024-04-29 20:17

黄仁勋问答全文：关于中国市场、全球供应链、奥特曼和Groq

今年GTC大会上，英伟达推出了地表最强Blackwell计算平台、NIM推理微服务、Omniverse Cloud API等惊喜新品。其中Blackwell GPU具有2080亿个晶体管，AI算力直接暴涨30倍。单芯片训练性能（FP8）是Hopper架构的2.5 倍，推理性能（FP4）是Hopper架构的5倍。具有第5代NVLink互连，并且可扩展至576个GPU。

来自主题: AI资讯

7427 点击 2024-03-22 16:04