AI资讯新闻榜单内容搜索-MoE

Dense、MoE之外第三条Scaling路径：交大提出JTok模块，省1/3算力

为了松绑参数与计算量，MoE 曾被寄予厚望。它靠着稀疏激活的专家子网络，在一定程度上实现了模型容量与计算量的解耦。然而，近期的研究表明，这并非没有代价的免费午餐：稀疏模型通常具有更低的样本效率；随着稀疏度增大，路由负载均衡变得更加困难，且巨大的显存开销和通信压力导致其推理吞吐量往往远低于同等激活参数量的 dense 模型。

来自主题: AI技术研报

7886 点击 2026-03-03 14:15

DeepSeek连更GitHub，华尔街回想起被支配的恐惧：“DeepSeek第二时刻”要来了

DeepSeek员工节后一上班，美国AI圈又要抖三抖了（doge）。就从十几个小时前开始，DeepSeek的GitHub仓库突然一阵猛更新，Merge了一堆PR：维护者主要是mowentian——DeepSeekMoE等论文的署名作者之一Huang Panpan。他这一干活不要紧，大洋彼岸“V4来了？？？”的紧张神经，又被瞬间挑了起来。

来自主题: AI资讯

9292 点击 2026-02-25 10:37

美团又上新模型，8个Thinker齐开工，能顶个诸葛亮？

美团也重磅更新自家模型 ——LongCat-Flash-Thinking-2601。这是一款强大高效的大规模推理模型，拥有 5600 亿个参数，基于创新的 MoE 架构构建。该模型引入了强大的重思考模式（Heavy Thinking Mode），能够同时启动 8 路思考并最终总结出一个更全面、更可靠的结论。目前重思考模式已在 LongCat AI 平台正式上线，人人均可体验。

来自主题: AI资讯

9223 点击 2026-01-16 14:35

超DeepEP两倍！无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈，专为Agent爆发设计

机器之心发布随着 ChatGPT、Gemini、DeepSeek-V3、Kimi-K2 等主流大模型纷纷采用混合专家架构（Mixture-of-Experts, MoE）及专家并行策略（Expert

来自主题: AI技术研报

8748 点击 2026-01-01 10:14

QwenLong-L1.5发布：一套配方，三大法宝，让30B MoE模型长文本推理能力媲美GPT-5

作为大模型从业者或研究员的你，是否也曾为一个模型的 “长文本能力” 而兴奋，却在实际应用中发现它并没有想象中那么智能？

来自主题: AI技术研报

7959 点击 2025-12-29 14:35

英伟达成美国大模型开源标杆：Nemotron 3连训练配方都公开，10万亿token数据全放出

英伟达在开源模型上玩的很激进： “最高效的开放模型家族”Nemotron 3，混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底：

来自主题: AI资讯

7551 点击 2025-12-26 15:48

罗福莉首秀前，小米突然发布！代码全球最强，总体媲美DeepSeek-V3.2【附实测】

今天，小米发布并开源了最新MoE大模型MiMo-V2-Flash，总参数309B，激活参数15B。今日上午，小米2025小米人车家全生态合作伙伴大会上，Xiaomi MiMO大模型负责人罗福莉将首秀并发布主题演讲。

来自主题: AI资讯

8061 点击 2025-12-17 09:41

OpenAI突然开源新模型！99.9%的权重是0，新稀疏性方法代替MoE

破解AI胡说八道的关键，居然是给大模型砍断99.9%的连接线？

来自主题: AI技术研报

9412 点击 2025-12-15 12:20

里程碑时刻！首个100B扩散语言模型来了，技术报告揭秘背后细节

前段时间，我们在 HuggingFace 页面发现了两个新模型：LLaDA2.0-mini 和 LLaDA2.0-flash。它们来自蚂蚁集团与人大、浙大、西湖大学组成的联合团队，都采用了 MoE 架构。前者总参数量为 16B，后者总参数量则高达 100B—— 在「扩散语言模型」这个领域，这是从未见过的规模。

来自主题: AI资讯

9670 点击 2025-12-12 16:08

哈工大深圳团队推出Uni-MoE-2.0-Omni：全模态理解、推理及生成新SOTA

全模态大模型（Omnimodal Large Models, OLMs）能够理解、生成、处理并关联真实世界多种数据类型，从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进，标志着其从「专才」走向「通才」，从「工具」走向「伙伴」的关键点。

来自主题: AI技术研报

8167 点击 2025-11-26 09:13