AI资讯新闻榜单内容搜索-MOE

微软急刹车，被曝撤掉大波数据中心租赁！DeepSeek冲击，算力泡沫要破？

DeepSeek开源第二弹如期而至。这一次，他们把MoE模型内核库开源了，支持FP8专为Hopper GPU设计，低延迟超高速训练推理。

来自主题: AI资讯

10673 点击 2025-02-25 15:14

刚刚，DeepSeek开源DeepEP通信库，千亿MoE训推颠覆级创新！FP8狂飙，带飞GPU

DeepSeek开源第二弹如期而至。这一次，他们把MoE训推EP通信库DeepEP开源了，支持FP8专为Hopper GPU设计，低延迟超高速训练推理。

来自主题: AI技术研报

10768 点击 2025-02-25 14:43

一文详解：DeepSeek 第二天开源的 DeepEP

DeepSeek 本周正在连续 5 天发布开源项目，今天是第 2 天，带来了专为混合专家模型（MoE）和专家并行（EP）打造的高效通信库 — DeepEP。就在半小时前，官方对此进行了发布，以下是由赛博禅心带来的详解。

来自主题: AI技术研报

9774 点击 2025-02-25 11:18

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

DeepSeek开源周第一天就放大招！FlashMLA强势登场，这是专为英伟达Hopper GPU打造MLA解码内核。注意，DeepSeek训练成本极低的两大关键，一个是MoE，另一个就是MLA。

来自主题: AI资讯

10282 点击 2025-02-24 10:57

月之暗面Kimi的技术一点都不落后。

2 月 18 日，月之暗面发布了一篇关于稀疏注意力框架 MoBA 的论文。MoBA 框架借鉴了 Mixture of Experts（MoE）的理念，提升了处理长文本的效率，它的上下文长度可扩展至 10M。并且，MoBA 支持在全注意力和稀疏注意力之间无缝切换，使得与现有的预训练模型兼容性大幅提升。

来自主题: AI技术研报

9071 点击 2025-02-23 11:38