AI资讯新闻榜单内容搜索-专家模型

Attention Sink产生的起点？清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型（MoE）通过动态路由和稀疏激活机制，极大提升了大语言模型（LLM）的学习能力，展现出显著的潜力。基于这一架构，涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

来自主题: AI技术研报

6719 点击 2025-08-12 11:07

华为盘古之殇最新进展：华为吹哨人再发讨贼檄文

我们先给不知道剧情的朋友回归一下事件事件线：2025年6月30日，华为宣布开源盘古7B稠密和72B混合专家模型。然而发布会后，网络上出现华为盘古大模型抄袭的言论。7月5日，诺亚方舟实验室发布《关于盘古大模型开源代码相关讨论的声明》。本以为官方已经出来站台，这件事到此为止。

来自主题: AI资讯

11560 点击 2025-07-10 09:21

华为盘古大模型“抄袭”阿里Qwen？官方回应

7月5日下午16:59分，隶属于华为的负责开发盘古大模型的诺亚方舟实验室发布声明对于“抄袭”指控进行了官方回应。诺亚方舟实验室表示，盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型，并非基于其他厂商模型增量训练而来，在架构设计、技术特性等方面做了关键创新，是全球首个面向昇腾硬件平台设计的同规格混合专家模型

来自主题: AI资讯

9805 点击 2025-07-06 11:06

各大互联网厂商，为什么会愿意将花费了巨额资金的AI大模型开源？

最近，看到各大厂商，在不断地将自己的AI大模型进行开源。华为宣布开源：盘古7B稠密和72B混合专家模型。

来自主题: AI资讯

6782 点击 2025-07-01 15:46

刚刚！华为首个开源大模型来了

刚刚，华为正式宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专家模型（参见机器之心报道：华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一）和基于昇腾的模型推理技术。

来自主题: AI资讯

9542 点击 2025-06-30 09:19

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

要问最近哪个模型最火，混合专家模型（MoE，Mixture of Experts）绝对是榜上提名的那一个。

来自主题: AI技术研报

8827 点击 2025-05-20 15:16

颜水成领衔，给AI分段位！超100款多模态模型，无人达到L5

理想中的多模态大模型应该是什么样？十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集，用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足，且多数通用模型未能超越专家模型，真正的通用人工智能需要实现模态间的协同效应。

来自主题: AI技术研报

9313 点击 2025-05-19 17:08

一文详解：DeepSeek 第三天开源的 DeepGEMM

DeepSeek 开源周的第三天，带来了专为 Hopper 架构 GPU 优化的矩阵乘法库 — DeepGEMM。这一库支持标准矩阵计算和混合专家模型（MoE）计算，为 DeepSeek-V3/R1 的训练和推理提供强大支持，在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。

来自主题: AI技术研报

7066 点击 2025-02-26 10:46

一文详解：DeepSeek 第二天开源的 DeepEP

DeepSeek 本周正在连续 5 天发布开源项目，今天是第 2 天，带来了专为混合专家模型（MoE）和专家并行（EP）打造的高效通信库 — DeepEP。就在半小时前，官方对此进行了发布，以下是由赛博禅心带来的详解。

来自主题: AI技术研报

8724 点击 2025-02-25 11:18

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

本周，在阿里云通义千问 Qwen 团队提交的一篇论文中，研究人员发现了目前最热门的 MoE（混合专家模型）训练中存在的一个普遍关键问题，并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡，使得 MoE 模型的性能和专家特异性都得到了显著的提升。

来自主题: AI技术研报

3864 点击 2025-01-26 11:12