AI资讯新闻榜单内容搜索-Mixture-of

只用512张H200！106B模型靠分布式RL杀出重围，全网开源

最近，Prime Intellect正式发布了INTELLECT-3。这是一款拥有106B参数的混合专家（Mixture-of-Experts）模型，基于Prime Intellect的强化学习（RL）技术栈训练。在数学、代码、科学与推理的各类基准测试上，它达成了同规模中最强的成绩，甚至超越了不少更大的前沿模型。

来自主题: AI资讯

8399 点击 2025-12-10 16:14

为MoE解绑：全新「专家即服务」推理架构发布，超细粒度扩展锐减37.5%成本

近年来，大型语言模型的参数规模屡创新高，随之而来的推理开销也呈指数级增长。如何降低超大模型的推理成本，成为业界关注的焦点之一。Mixture-of-Experts (MoE，混合专家) 架构通过引入大量 “专家” 子模型，让每个输入仅激活少数专家，从而在参数规模激增的同时避免推理计算量同比增长。

来自主题: AI技术研报

8193 点击 2025-10-13 15:49

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

Transformer杀手来了？KAIST、谷歌DeepMind等机构刚刚发布的MoR架构，推理速度翻倍、内存减半，直接重塑了LLM的性能边界，全面碾压了传统的Transformer。网友们直呼炸裂：又一个改变游戏规则的炸弹来了。

来自主题: AI技术研报

8939 点击 2025-07-17 17:00

RMoA残差提取Mixture-of-Agents，让Agent发现新东西，并自适应停止「ACL2025」

如果你正在开发Agent产品，一定听过或用过Mixture-of-Agents（MoA）架构。这个让多个AI模型协作解决复杂问题的框架，理论上能够集众家之长，实际使用中却让人又爱又恨：

来自主题: AI技术研报

6254 点击 2025-06-05 10:47

ICML 2025 Spotlight｜华为诺亚提出端侧大模型新架构MoLE，内存搬运代价降低1000倍

Mixture-of-Experts（MoE）在推理时仅激活每个 token 所需的一小部分专家，凭借其稀疏激活的特点，已成为当前 LLM 中的主流架构。然而，MoE 虽然显著降低了推理时的计算量，但整体参数规模依然大于同等性能的 Dense 模型，因此在显存资源极为受限的端侧部署场景中，仍然面临较大挑战。

来自主题: AI技术研报

7402 点击 2025-05-07 09:30

上海AI Lab最新推出Mixture-of-Memories：线性注意力也有稀疏记忆了

回顾 AGI 的爆发，从最初的 pre-training (model/data) scaling，到 post-training (SFT/RLHF) scaling，再到 reasoning (RL) scaling，找到正确的 scaling 维度始终是问题的本质。

来自主题: AI技术研报

5781 点击 2025-03-06 09:46

谷歌更新Transformer架构，更节省计算资源！50%性能提升

谷歌终于更新了Transformer架构。最新发布的Mixture-of-Depths（MoD），改变了以往Transformer计算模式。它通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。

来自主题: AI技术研报

7602 点击 2024-04-05 17:04